Open-Source-.NET-API für OCR zur Verarbeitung von Text und Bildern

Open Source .NET Optical Character Recognition (OCR)-API zur Konvertierung von Bildern (gescannten Bildern und PDF-Dateien), die Text enthalten, in maschinenlesbaren Text.

Tesseract ist eine sehr leistungsstarke Open-Source-OCR-Engine (Optical Character Recognition), die es Softwareentwicklern ermöglicht, verschiedene Arten von Bildern mit Text in maschinenlesbaren Text in Python-Anwendungen umzuwandeln. Die Open-Source-Technologie hat die Art und Weise, wie Softwareentwickler ihre Anwendungen erstellen, revolutioniert, indem sie es ihnen erleichtert, auf leistungsstarke Tools und Bibliotheken zuzugreifen und diese in ihre Anwendungen zu integrieren. Es ist ein .NET-Wrapper für tesseract-ocr und kann in einer Vielzahl von Anwendungen verwendet werden, vom Scannen von Dokumenten und der Datenextraktion bis hin zur automatisierten Bilderkennung und -übersetzung.

Tesseract wurde ursprünglich in den 1980er Jahren von Hewlett-Packard entwickelt und später im Jahr 2005 als Open-Source-Projekt veröffentlicht. Seitdem hat es sich zu einer der am weitesten verbreiteten OCR-Engines der Welt entwickelt und unterstützt Unicode (UTF). -8), über 100 Sprachen und die Möglichkeit, eine Vielzahl von Bildformaten zu verarbeiten. Die API umfasst verschiedene Funktionen wie das Scannen von Dokumenten, die Digitalisierung von Dokumenten, die Durchsuchbarkeit von Dokumenten, die Erstellung maschinenlesbarer Dokumente, die Optimierung der OCR-Leistung und vieles mehr.

Tesseract ist sehr einfach zu bedienen und darauf ausgelegt, Text in digitalen Bildern in einer Vielzahl von Bildformaten wie JPEG, BMP, PSD, PNG, TIFF und vielen mehr zu erkennen. Die Bibliothek ist hochgradig anpassbar und verfügt über eine Vielzahl von Optionen, mit denen die OCR-Leistung für verschiedene Arten von Bildern und Text optimiert werden kann. Ganz gleich, ob Sie mit dem Scannen und Digitalisieren von Dokumenten, der Datenextraktion oder der Bilderkennung und -übersetzung arbeiten, Tesseract bietet eine leistungsstarke und zuverlässige Lösung, mit der Sie Ihre Ziele schnell und einfach erreichen können.

Auf einen Blick

Eine Übersicht über die Tesseract-Funktionen.

Funktionsübersicht

OCR durchführen
OCR-Funktionen hinzufügen
Bildtext erkennen
Convet-Textbilder
Erkannter Schriftarttext
PDF durchsuchen
Über 100 Sprachen
OCR-Apps erstellen
Im Browser speichern
Text extrahieren
Multithreading-Unterstützung

Tesseract

Tesseract unterstützt die unten aufgeführten gängigen Bilddateiformate.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schriftsteller

PNG, JPEG, BMP, TIFF

Tesseract

Plattformunabhängigkeit

Tesseract kann mit jeder .NET-Programmiersprache arbeiten

.NET Framework 4.8

Tesseract

Erste Schritte mit Tesseract

Die empfohlene Methode zur Installation von Tesseract ist die Verwendung von NuGet. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.

Installieren Sie Tesseract über NuGet

 Install-Package Tesseract

Installieren Sie Tesseract über GitHub

 git clone https://github.com/charlesw/tesseract.git

Einfachen Text aus einem Bild über C# extrahieren

Mit der Open-Source-C#-Bibliothek Tesseract können Softwareentwickler Text aus einem Bild in ihren eigenen .NET-Anwendungen extrahieren. Die Bibliothek ermöglicht es Softwareentwicklern, den Textinhalt gescannter Dokumente oder Bilder einfach abzurufen und für die weitere Verarbeitung oder Analyse zu verwenden. Um diese Aufgabe zu erfüllen, müssen Entwickler zunächst den Tesseract-Namespace in Ihre Codedatei importieren und eine Instanz der Tesseract-Engine erstellen. Das folgende Beispiel zeigt, wie Sie den Basistext aus dem Bild extrahieren und an die Konsole ausgeben.

Wie extrahiere ich den Basistext aus einem Bild über die C#-API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Bild über C# .NET in durchsuchbares PDF konvertieren

Die Open-Source-C#-Bibliothek Tesseract enthält einige nützliche Funktionen zum Konvertieren von Bildern in durchsuchbare PDF-Dokumente mithilfe von C#-Code. Die Bibliothek unterstützt außerdem verschiedene Ausgabeformate wie einfachen Text, hOCR (HTML), PDF, PDF nur mit unsichtbarem Text, TSV, ALTO und viele mehr. Bitte denken Sie daran, dass Entwickler die Qualität der Bilder, die sie Tesseract bereitstellen, verbessern müssen, um bessere OCR-Ergebnisse zu erzielen. Das folgende Beispiel zeigt, wie Sie ein durchsuchbares PDF-Dokument erstellen, das den erkannten Text aus dem Bild enthält.

So konvertieren Sie Bilder mit C# .NET in durchsuchbare PDFs

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);