1. Produk
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Open Source .NET API untuk OCR Untuk Memproses Teks & Imej

Open Source .NET Optical Character Recognition (OCR) API digunakan untuk menukar imej (imej imbasan & fail PDF) yang mengandungi teks kepada teks yang boleh dibaca mesin.

Tesseract ialah enjin pengecaman aksara optik sumber terbuka (OCR) yang sangat berkuasa yang membolehkan pembangun perisian menukar pelbagai jenis imej yang mengandungi teks kepada teks yang boleh dibaca mesin dalam aplikasi Python. Teknologi sumber terbuka telah merevolusikan cara pembangun perisian membina aplikasi mereka dengan memudahkan mereka mengakses dan menyepadukan alatan dan perpustakaan yang berkuasa di dalam aplikasi mereka. Ia adalah pembalut .NET untuk tesseract-ocr dan boleh digunakan dalam pelbagai aplikasi, daripada pengimbasan dokumen dan pengekstrakan data kepada pengecaman dan terjemahan imej automatik.

Tesseract pada asalnya dibangunkan pada tahun 1980-an oleh Hewlett-Packard dan kemudian dikeluarkan sebagai projek sumber terbuka pada tahun 2005. Sejak itu, ia telah menjadi salah satu enjin OCR yang paling banyak digunakan di dunia, dengan sokongan untuk Unicode (UTF). -8), lebih 100 bahasa dan keupayaan untuk memproses pelbagai format imej. Terdapat pelbagai bahagian ciri API seperti pengimbasan dokumen, pendigitalan dokumen, menjadikan dokumen boleh dicari, mencipta dokumen yang boleh dibaca mesin, mengoptimumkan prestasi OCR dan banyak lagi.

Tesseract sangat mudah dikendalikan dan direka bentuk untuk mengecam teks dalam imej digital dalam pelbagai format imej, seperti JPEG, BMP, JPA, PNG, TIFF dan banyak lagi. Perpustakaan ini sangat boleh disesuaikan, dengan pelbagai pilihan yang boleh digunakan untuk mengoptimumkan prestasi OCR untuk pelbagai jenis imej dan teks. Sama ada anda sedang mengusahakan pengimbasan dan pendigitalan dokumen, pengekstrakan data atau pengecaman dan terjemahan imej, Tesseract menawarkan penyelesaian yang berkuasa dan boleh dipercayai yang boleh membantu anda mencapai matlamat anda dengan cepat dan mudah.

Previous Next

Bermula dengan Tesseract

Cara yang disyorkan untuk memasang Tesseract adalah menggunakan NuGet. Sila gunakan arahan berikut untuk pemasangan yang lancar.

Pasang Tesseract melalui NuGet

 Install-Package Tesseract 

Pasang Tesseract melalui GitHub

 git clone https://github.com/charlesw/tesseract.git 

Ekstrak Teks Asas daripada Imej melalui C#

Pustaka C# sumber terbuka Tesseract membolehkan pembangun perisian mengekstrak teks daripada imej di dalam aplikasi .NET mereka sendiri. Perpustakaan memudahkan pembangun perisian untuk mendapatkan semula kandungan teks dokumen atau imej yang diimbas dengan mudah, dan menggunakannya untuk pemprosesan atau analisis selanjutnya. Untuk mencapai tugas, pembangun pertama perlu mengimport ruang nama Tesseract dalam fail kod anda dan mencipta contoh enjin Tesseract. Contoh berikut menunjukkan cara mengekstrak teks asas daripada imej dan mengeluarkannya ke konsol.

Bagaimana untuk Mengekstrak Teks Asas daripada Imej melalui C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Tukar Imej kepada PDF Boleh Cari melalui C# .NET

Pustaka C# sumber terbuka Tesseract telah menyertakan beberapa ciri berguna untuk menukar imej kepada dokumen PDF yang boleh dicari menggunakan kod C#. Perpustakaan ini juga telah menyertakan sokongan untuk pelbagai format output, seperti teks biasa, hOCR (HTML), PDF, PDF teks tidak kelihatan sahaja, TSV, ALTO dan banyak lagi. Sila ingat bahawa untuk mendapatkan hasil OCR yang lebih baik, pembangun perlu meningkatkan kualiti imej yang akan mereka sediakan kepada Tesseract. Contoh berikut menunjukkan cara membuat dokumen PDF boleh dicari yang mengandungi teks yang diiktiraf daripada imej.

Cara Menukar Imej kepada PDF Boleh Dicari menggunakan C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Melayu