Open Source .NET API untuk OCR Untuk Memproses Teks & Gambar

API Pengenalan Karakter Optik (OCR) .NET Open Source yang digunakan untuk mengonversi gambar (gambar pindaian & file PDF) yang berisi teks menjadi teks yang dapat dibaca mesin.

Tesseract adalah mesin pengenalan karakter optik (OCR) open source yang sangat kuat yang memungkinkan pengembang perangkat lunak mengonversi berbagai jenis gambar yang berisi teks menjadi teks yang dapat dibaca mesin di dalam aplikasi Python. Teknologi sumber terbuka telah merevolusi cara pengembang perangkat lunak membangun aplikasi mereka dengan memudahkan mereka mengakses dan mengintegrasikan alat dan perpustakaan canggih di dalam aplikasi mereka. Ini adalah pembungkus .NET untuk tesseract-ocr dan dapat digunakan dalam berbagai aplikasi, mulai dari pemindaian dokumen dan ekstraksi data hingga pengenalan dan terjemahan gambar otomatis.

Tesseract awalnya dikembangkan pada tahun 1980an oleh Hewlett-Packard dan kemudian dirilis sebagai proyek sumber terbuka pada tahun 2005. Sejak itu, Tesseract telah menjadi salah satu mesin OCR yang paling banyak digunakan di dunia, dengan dukungan untuk Unicode (UTF -8), lebih dari 100 bahasa, dan kemampuan untuk memproses berbagai format gambar. Ada berbagai fitur bagian dari API seperti pemindaian dokumen, digitalisasi dokumen, membuat dokumen dapat dicari, membuat dokumen yang dapat dibaca mesin, mengoptimalkan kinerja OCR, dan banyak lagi.

Tesseract sangat mudah digunakan dan dirancang untuk mengenali teks dalam gambar digital dalam berbagai format gambar, seperti JPEG, BMP, PSD, PNG, TIFF, dan banyak lagi. Pustaka ini sangat dapat disesuaikan, dengan beragam pilihan yang dapat digunakan untuk mengoptimalkan kinerja OCR untuk berbagai jenis gambar dan teks. Baik Anda sedang mengerjakan pemindaian dan digitalisasi dokumen, ekstraksi data, atau pengenalan dan penerjemahan gambar, Tesseract menawarkan solusi canggih dan andal yang dapat membantu Anda mencapai tujuan dengan cepat dan mudah.

Sekilas

Ikhtisar fitur Tesseract.

Ikhtisar Fitur

Lakukan OCR
Tambahkan Kemampuan OCR
Mengenali teks Gambar
Konversi gambar teks
Teks Font yang Dikenali
Cari PDF
Lebih dari 100 Bahasa
Membuat aplikasi OCR
Simpan ke browser
Ekstrak Teks
Dukungan multi-threading

Tesseract

Tesseract mendukung format file gambar populer yang tercantum di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

Tesseract

Kemandirian Platform

Tesseract dapat bekerja dengan bahasa pemrograman .NET apa pun

.NET Framework 4.8

Tesseract

Memulai Tesseract

Cara yang disarankan untuk menginstal Tesseract adalah menggunakan NuGet. Silakan gunakan perintah berikut untuk kelancaran instalasi.

Instal Tesseract melalui NuGet

 Install-Package Tesseract

Instal Tesseract melalui GitHub

 git clone https://github.com/charlesw/tesseract.git

Ekstrak Teks Dasar dari Gambar melalui C#

Pustaka C# sumber terbuka Tesseract memungkinkan pengembang perangkat lunak mengekstrak teks dari gambar di dalam aplikasi .NET mereka sendiri. Perpustakaan memudahkan pengembang perangkat lunak untuk dengan mudah mengambil konten teks dari dokumen atau gambar yang dipindai, dan menggunakannya untuk pemrosesan atau analisis lebih lanjut. Untuk mencapai tugas tersebut, pertama-tama pengembang perlu mengimpor namespace Tesseract di file kode Anda dan membuat instance mesin Tesseract. Contoh berikut menunjukkan cara mengekstrak teks dasar dari gambar dan mengeluarkannya ke konsol.

Bagaimana Cara Mengekstrak Teks Dasar dari Gambar melalui C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Konversi Gambar ke PDF yang Dapat Dicari melalui C# .NET

Pustaka C# sumber terbuka Tesseract telah menyertakan beberapa fitur berguna untuk mengonversi gambar menjadi dokumen PDF yang dapat dicari menggunakan kode C#. Perpustakaan juga telah menyertakan dukungan untuk berbagai format keluaran, seperti teks biasa, hOCR (HTML), PDF, PDF hanya teks tak terlihat, TSV, ALTO dan banyak lagi. Harap diingat bahwa untuk mendapatkan hasil OCR yang lebih baik, pengembang perlu meningkatkan kualitas gambar yang akan mereka berikan ke Tesseract. Contoh berikut menunjukkan cara membuat dokumen PDF yang dapat dicari berisi teks yang dikenali dari gambar.

Cara Mengonversi Gambar ke PDF yang Dapat Dicari menggunakan C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);