1. Producten
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Open Source .NET API voor OCR om tekst en afbeeldingen te verwerken

Open Source .NET Optical Character Recognition (OCR) API die wordt gebruikt om afbeeldingen (gescande afbeeldingen en PDF-bestanden) met tekst te converteren naar machinaal leesbare tekst.

Tesseract is een zeer krachtige opensource-engine voor optische tekenherkenning (OCR) waarmee softwareontwikkelaars verschillende soorten afbeeldingen met tekst kunnen converteren naar machinaal leesbare tekst in Python-applicaties. Open source-technologie heeft een revolutie teweeggebracht in de manier waarop softwareontwikkelaars hun applicaties bouwen, door het voor hen gemakkelijker te maken om toegang te krijgen tot krachtige tools en bibliotheken en deze in hun applicaties te integreren. Het is een .NET-wrapper voor tesseract-ocr en kan worden gebruikt in een breed scala aan toepassingen, van het scannen van documenten en gegevensextractie tot geautomatiseerde beeldherkenning en vertaling.

Tesseract werd oorspronkelijk in de jaren tachtig ontwikkeld door Hewlett-Packard en werd later in 2005 uitgebracht als open source-project. Sindsdien is het een van de meest gebruikte OCR-engines ter wereld geworden, met ondersteuning voor Unicode (UTF -8), meer dan 100 talen, en de mogelijkheid om een ​​breed scala aan beeldformaten te verwerken. Er zijn verschillende functies die deel uitmaken van de API, zoals het scannen van documenten, het digitaliseren van documenten, het doorzoekbaar maken van documenten, het maken van machineleesbare documenten, het optimaliseren van de OCR-prestaties en nog veel meer.

Tesseract is zeer eenvoudig te gebruiken en is ontworpen om tekst in digitale afbeeldingen te herkennen in een breed scala aan afbeeldingsformaten, zoals JPEG, BMP, PSD, PNG, TIFF en nog veel meer. De bibliotheek is in hoge mate aanpasbaar, met een breed scala aan opties die kunnen worden gebruikt om de OCR-prestaties voor verschillende soorten afbeeldingen en tekst te optimaliseren. Of u nu werkt aan het scannen en digitaliseren van documenten, het extraheren van gegevens of het herkennen en vertalen van afbeeldingen, Tesseract biedt een krachtige en betrouwbare oplossing waarmee u uw doelen snel en eenvoudig kunt bereiken.

Previous Next

Aan de slag met Tesseract

De aanbevolen manier om Tesseract te installeren is het gebruik van NuGet. Gebruik het volgende commando voor een vlotte installatie.

Installeer Tesseract via NuGet

 Install-Package Tesseract 

Installeer Tesseract via GitHub

 git clone https://github.com/charlesw/tesseract.git 

Extraheer basistekst uit een afbeelding via C#

De open source C#-bibliotheek Tesseract stelt softwareontwikkelaars in staat tekst uit een afbeelding te extraheren in hun eigen .NET-applicaties. Dankzij de bibliotheek kunnen softwareontwikkelaars eenvoudig de tekstinhoud van gescande documenten of afbeeldingen ophalen en gebruiken voor verdere verwerking of analyse. Om deze taak te volbrengen, moeten ontwikkelaars eerst de Tesseract-naamruimte in uw codebestand importeren en een exemplaar van de Tesseract-engine maken. Het volgende voorbeeld laat zien hoe u de basistekst uit de afbeelding kunt extraheren en naar de console kunt uitvoeren.

Hoe kan ik de basistekst uit een afbeelding extraheren via de C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Afbeelding converteren naar doorzoekbare PDF via C# .NET

De open source C#-bibliotheek Tesseract heeft enkele handige functies toegevoegd voor het converteren van afbeeldingen naar doorzoekbare PDF-documenten met behulp van C#-code. De bibliotheek biedt ook ondersteuning voor verschillende uitvoerformaten, zoals platte tekst, hOCR (HTML), PDF, PDF met alleen onzichtbare tekst, TSV, ALTO en nog veel meer. Houd er rekening mee dat ontwikkelaars, om betere OCR-resultaten te krijgen, de kwaliteit moeten verbeteren van de afbeeldingen die ze aan Tesseract gaan leveren. In het volgende voorbeeld ziet u hoe u een doorzoekbaar PDF-document maakt met de herkende tekst uit de afbeelding.

Afbeelding converteren naar doorzoekbare PDF met C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Dutch