1. Produkter
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Open Source .NET API för OCR för att bearbeta text och bilder

Open Source .NET Optical Character Recognition (OCR) API används för att konvertera bilder (skannade bilder och PDF-filer) som innehåller text till maskinläsbar text.

Tesseract är en mycket kraftfull motor för optisk teckenigenkänning (OCR) med öppen källkod som gör det möjligt för programutvecklare att konvertera olika typer av bilder som innehåller text till maskinläsbar text i Python-applikationer. Teknik med öppen källkod har revolutionerat hur mjukvaruutvecklare bygger sina applikationer genom att göra det lättare för dem att komma åt och integrera kraftfulla verktyg och bibliotek i sina applikationer. Det är ett .NET-omslag för tesseract-ocr och kan användas i en mängd olika applikationer, från dokumentskanning och dataextraktion till automatisk bildigenkänning och översättning.

Tesseract utvecklades ursprungligen på 1980-talet av Hewlett-Packard och släpptes senare som ett projekt med öppen källkod 2005. Sedan dess har det blivit en av de mest använda OCR-motorerna i världen, med stöd för Unicode (UTF) -8), över 100 språk och förmågan att bearbeta ett brett utbud av bildformat. Det finns olika funktioner i API:t som dokumentskanning, dokumentdigitalisering, göra dokument sökbara, skapa maskinläsbara dokument, optimera OCR-prestanda och många fler.

Tesseract är mycket lätt att hantera och är designat för att känna igen text i digitala bilder i en mängd olika bildformat, såsom JPEG, BMP, PSD, PNG, TIFF och många fler. Biblioteket är mycket anpassningsbart, med ett brett utbud av alternativ som kan användas för att optimera OCR-prestanda för olika typer av bilder och text. Oavsett om du arbetar med dokumentskanning och digitalisering, dataextraktion eller bildigenkänning och översättning, erbjuder Tesseract en kraftfull och pålitlig lösning som kan hjälpa dig att nå dina mål snabbt och enkelt.

Previous Next

Komma igång med Tesseract

Det rekommenderade sättet att installera Tesseract är att använda NuGet. Använd följande kommando för en smidig installation.

Installera Tesseract via NuGet

 Install-Package Tesseract 

Installera Tesseract via GitHub

 git clone https://github.com/charlesw/tesseract.git 

Extrahera grundläggande text från en bild via C#

Open source C#-biblioteket Tesseract gör det möjligt för programutvecklare att extrahera text från en bild i sina egna .NET-applikationer. Biblioteket gör det enkelt för programutvecklare att enkelt hämta textinnehållet i skannade dokument eller bilder och använda det för vidare bearbetning eller analys. För att uppnå uppgiften måste utvecklare först importera Tesseract-namnområdet i din kodfil och skapa en instans av Tesseract-motorn. Följande exempel visar hur man extraherar grundtexten från bilden och matar ut den till konsolen.

Hur extraherar man grundtexten från bild via C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Konvertera bild till sökbar PDF via C# .NET

C#-biblioteket med öppen källkod Tesseract har inkluderat några användbara funktioner för att konvertera bilder till sökbara PDF-dokument med hjälp av C#-kod. Biblioteket har också inkluderat stöd för olika utdataformat, såsom vanlig text, hOCR (HTML), PDF, PDF med enbart osynlig text, TSV, ALTO och många fler. Kom ihåg att för att få bättre OCR-resultat måste utvecklarnas behov förbättra kvaliteten på bilderna som de kommer att tillhandahålla Tesseract. Följande exempel visar hur man skapar ett sökbart PDF-dokument som innehåller den igenkända texten från bilden.

Hur man konverterar bild till sökbar PDF med C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Svenska