1. Produse
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Open Source .NET API pentru OCR pentru a procesa text și imagini

API Open Source .NET Optical Character Recognition (OCR) folosit pentru a converti imagini (imagini scanate și fișiere PDF) care conțin text în text care poate fi citit de mașină.

Tesseract este un motor de recunoaștere optică a caracterelor (OCR) cu sursă deschisă foarte puternic, care le permite dezvoltatorilor de software să convertească diferite tipuri de imagini care conțin text în text care poate fi citit de mașină în cadrul aplicațiilor Python. Tehnologia open source a revoluționat modul în care dezvoltatorii de software își construiesc aplicațiile, făcându-le mai ușor să acceseze și să integreze instrumente și biblioteci puternice în aplicațiile lor. Este un wrapper .NET pentru tesseract-ocr și poate fi utilizat într-o gamă largă de aplicații, de la scanarea documentelor și extragerea datelor până la recunoașterea și traducerea automată a imaginilor.

Tesseract a fost dezvoltat inițial în anii 1980 de Hewlett-Packard și a fost lansat ulterior ca proiect open source în 2005. De atunci, a devenit unul dintre cele mai utilizate motoare OCR din lume, cu suport pentru Unicode (UTF). -8), peste 100 de limbi și capacitatea de a procesa o gamă largă de formate de imagine. Există diverse funcții care fac parte din API, cum ar fi scanarea documentelor, digitizarea documentelor, căutarea documentelor, crearea de documente care pot fi citite de mașină, optimizarea performanței OCR și multe altele.

Tesseract este foarte ușor de manevrat și este conceput pentru a recunoaște textul din imaginile digitale într-o gamă largă de formate de imagine, cum ar fi JPEG, BMP, PSD, PNG, TIFF și multe altele. Biblioteca este foarte personalizabilă, cu o gamă largă de opțiuni care pot fi utilizate pentru a optimiza performanța OCR pentru diferite tipuri de imagini și text. Indiferent dacă lucrați la scanarea și digitizarea documentelor, extragerea datelor sau recunoașterea și traducerea imaginilor, Tesseract oferă o soluție puternică și fiabilă care vă poate ajuta să vă atingeți obiectivele rapid și ușor.

Previous Next

Noțiuni introductive cu Tesseract

Modul recomandat de a instala Tesseract este utilizarea NuGet. Vă rugăm să utilizați următoarea comandă pentru o instalare fără probleme.

Instalați Tesseract prin NuGet

 Install-Package Tesseract 

Instalați Tesseract prin GitHub

 git clone https://github.com/charlesw/tesseract.git 

Extrageți textul de bază dintr-o imagine prin C#

Biblioteca open source C# Tesseract le permite dezvoltatorilor de software să extragă text dintr-o imagine din propriile aplicații .NET. Biblioteca facilitează pentru dezvoltatorii de software să recupereze cu ușurință conținutul text al documentelor sau imaginilor scanate și să îl utilizeze pentru procesare sau analiză ulterioară. Pentru a realiza sarcina, mai întâi dezvoltatorii trebuie să importe spațiul de nume Tesseract în fișierul de cod și să creeze o instanță a motorului Tesseract. Următorul exemplu arată cum să extrageți textul de bază din imagine și să îl scoateți în consolă.

Cum se extrage textul de bază din imagine prin API-ul C#?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Convertiți imaginea în PDF care poate fi căutat prin C# .NET

Biblioteca C# open source Tesseract a inclus câteva caracteristici utile pentru conversia imaginilor în documente PDF care pot fi căutate folosind codul C#. Biblioteca a inclus, de asemenea, suport pentru diferite formate de ieșire, cum ar fi text simplu, hOCR (HTML), PDF, PDF doar cu text invizibil, TSV, ALTO și multe altele. Vă rugăm să rețineți că pentru a obține rezultate OCR mai bune, dezvoltatorul trebuie să îmbunătățească calitatea imaginilor pe care le vor furniza lui Tesseract. Următorul exemplu arată cum să creați un document PDF care poate fi căutat, care conține textul recunoscut din imagine.

Cum se convertesc imaginea într-un PDF care poate fi căutat folosind C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Română