Open Source .NET API til OCR til behandling af tekst og billeder

Open Source .NET Optical Character Recognition (OCR) API bruges til at konvertere billeder (scannede billeder og PDF-filer), der indeholder tekst, til maskinlæsbar tekst.

Tesseract er en meget kraftfuld open source-motor til optisk tegngenkendelse (OCR), der gør det muligt for softwareudviklere at konvertere forskellige typer billeder, der indeholder tekst, til maskinlæsbar tekst i Python-applikationer. Open source-teknologi har revolutioneret måden softwareudviklere bygger deres applikationer på ved at gøre det nemmere for dem at få adgang til og integrere kraftfulde værktøjer og biblioteker i deres applikationer. Det er en .NET-indpakning til tesseract-ocr og kan bruges i en lang række applikationer, fra dokumentscanning og dataudtræk til automatisk billedgenkendelse og oversættelse.

Tesseract blev oprindeligt udviklet i 1980'erne af Hewlett-Packard og blev senere udgivet som et open source-projekt i 2005. Siden da er det blevet en af de mest udbredte OCR-motorer i verden med understøttelse af Unicode (UTF) -8), over 100 sprog og evnen til at behandle en bred vifte af billedformater. Der er forskellige funktioner i API'et, såsom dokumentscanning, dokumentdigitalisering, gøre dokumenter søgbare, oprette maskinlæsbare dokumenter, optimere OCR-ydeevne og mange flere.

Tesseract er meget let at håndtere og er designet til at genkende tekst i digitale billeder i en lang række billedformater, såsom JPEG, BMP, PSD, PNG, TIFF og mange flere. Biblioteket er meget tilpasseligt med en bred vifte af muligheder, der kan bruges til at optimere OCR-ydeevne for forskellige typer billeder og tekst. Uanset om du arbejder med dokumentscanning og digitalisering, dataudtræk eller billedgenkendelse og oversættelse, tilbyder Tesseract en kraftfuld og pålidelig løsning, der kan hjælpe dig med at nå dine mål hurtigt og nemt.

Oversigt

En oversigt over Tesseract-funktioner.

Oversigt over funktioner

Udfør OCR
Tilføj OCR-funktioner
Genkend billedtekst
Konverter billeder af tekst
Genkendt skrifttypetekst
Søg i PDF
Over 100 sprog
Opret OCR-apps
Gem i browser
Udtræk tekst
Multi-threading Support

Tesseract

Tesseract understøtter populære billedfilformater anført nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Forfatter

PNG, JPEG, BMP, TIFF

Tesseract

Platformuafhængighed

Tesseract kan arbejde med ethvert .NET-programmeringssprog

.NET Framework 4.8

Tesseract

Kom godt i gang med Tesseract

Den anbefalede måde at installere Tesseract på er at bruge NuGet. Brug venligst følgende kommando for en problemfri installation.

Installer Tesseract via NuGet

 Install-Package Tesseract

Installer Tesseract via GitHub

 git clone https://github.com/charlesw/tesseract.git

Udtræk grundlæggende tekst fra et billede via C#

Open source C#-biblioteket Tesseract gør det muligt for softwareudviklere at udtrække tekst fra et billede i deres egne .NET-applikationer. Biblioteket gør det nemt for softwareudviklere nemt at hente tekstindholdet i scannede dokumenter eller billeder og bruge det til videre bearbejdning eller analyse. For at udføre opgaven skal udviklere først importere Tesseract-navneområdet i din kodefil og oprette en forekomst af Tesseract-motoren. Følgende eksempel viser, hvordan man udtrækker den grundlæggende tekst fra billedet og udskriver den til konsollen.

Hvordan udtrækkes den grundlæggende tekst fra billedet via C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Konverter billede til søgbar PDF via C# .NET

Open source C#-biblioteket Tesseract har inkluderet nogle nyttige funktioner til at konvertere billeder til søgbare PDF-dokumenter ved hjælp af C#-kode. Biblioteket har også inkluderet understøttelse af forskellige outputformater, såsom almindelig tekst, hOCR (HTML), PDF, usynlig-tekst-kun PDF, TSV, ALTO og mange flere. Husk, at for at få bedre OCR-resultater, er udviklerens behov for at forbedre kvaliteten af de billeder, de vil levere til Tesseract. Følgende eksempel viser, hvordan man opretter et søgbart PDF-dokument, der indeholder den genkendte tekst fra billedet.

Sådan konverteres billede til søgbar PDF ved hjælp af C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);