Open Source .NET API für OCR zur Verarbeitung von Text und Bildern
Open Source .NET-API zur optischen Zeichenerkennung (OCR) zum Konvertieren von Bildern (gescannte Bilder und PDF-Dateien) mit Text in maschinenlesbaren Text.
Tesseract ist eine sehr leistungsstarke Open-Source-Engine zur optischen Zeichenerkennung (OCR), mit der Softwareentwickler verschiedene Arten von Bildern mit Text in maschinenlesbaren Text in Python-Anwendungen umwandeln können. Open-Source-Technologie hat die Art und Weise, wie Softwareentwickler ihre Anwendungen erstellen, revolutioniert, indem sie ihnen den Zugriff auf leistungsstarke Tools und Bibliotheken und deren Integration in ihre Anwendungen erleichtert. Es handelt sich um einen .NET-Wrapper für tesseract-ocr und kann in einer Vielzahl von Anwendungen verwendet werden, vom Scannen von Dokumenten und der Datenextraktion bis hin zur automatischen Bilderkennung und -übersetzung.
Tesseract wurde ursprünglich in den 1980er Jahren von Hewlett-Packard entwickelt und später im Jahr 2005 als Open-Source-Projekt veröffentlicht. Seitdem ist es eine der am häufigsten verwendeten OCR-Engines der Welt geworden, mit Unterstützung für Unicode (UTF-8), über 100 Sprachen und der Fähigkeit, eine breite Palette von Bildformaten zu verarbeiten. Die API umfasst verschiedene Funktionen wie das Scannen und Digitalisieren von Dokumenten, das Durchsuchbarmachen von Dokumenten, das Erstellen maschinenlesbarer Dokumente, die Optimierung der OCR-Leistung und vieles mehr.
Tesseract ist sehr einfach zu handhaben und wurde entwickelt, um Text in digitalen Bildern in einer Vielzahl von Bildformaten wie JPEG, BMP, PSD, PNG, TIFF und vielen mehr zu erkennen. Die Bibliothek ist hochgradig anpassbar und bietet eine breite Palette von Optionen, mit denen die OCR-Leistung für verschiedene Arten von Bildern und Text optimiert werden kann. Egal, ob Sie an Dokumentenscans und -digitalisierung, Datenextraktion oder Bilderkennung und -übersetzung arbeiten, Tesseract bietet eine leistungsstarke und zuverlässige Lösung, mit der Sie Ihre Ziele schnell und einfach erreichen können.
Erste Schritte mit Tesseract
Die empfohlene Methode zur Installation von Tesseract ist die Verwendung von NuGet. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.
Tesseract über NuGet installieren
Install-Package Tesseract
Tesseract über GitHub installieren
git clone https://github.com/charlesw/tesseract.git
Extrahieren Sie einfachen Text aus einem Bild mit C#
Die Open-Source-C#-Bibliothek Tesseract ermöglicht es Softwareentwicklern, Text aus einem Bild in ihren eigenen .NET-Anwendungen zu extrahieren. Die Bibliothek macht es Softwareentwicklern leicht, den Textinhalt gescannter Dokumente oder Bilder einfach abzurufen und für die weitere Verarbeitung oder Analyse zu verwenden. Um diese Aufgabe zu erfüllen, müssen Entwickler zunächst den Tesseract-Namespace in Ihre Codedatei importieren und eine Instanz der Tesseract-Engine erstellen. Das folgende Beispiel zeigt, wie der einfache Text aus dem Bild extrahiert und auf der Konsole ausgegeben wird.
Wie extrahiere ich den Basistext aus einem Bild über die C#-API?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Bild über C# .NET in durchsuchbares PDF konvertieren
Die Open-Source-C#-Bibliothek Tesseract enthält einige nützliche Funktionen zum Konvertieren von Bildern in durchsuchbare PDF-Dokumente mithilfe von C#-Code. Die Bibliothek unterstützt auch verschiedene Ausgabeformate wie einfachen Text, hOCR (HTML), PDF, PDF mit unsichtbarem Text, TSV, ALTO und viele mehr. Bitte denken Sie daran, dass Entwickler die Qualität der Bilder verbessern müssen, die sie Tesseract bereitstellen, um bessere OCR-Ergebnisse zu erzielen. Das folgende Beispiel zeigt, wie ein durchsuchbares PDF-Dokument erstellt wird, das den erkannten Text aus dem Bild enthält.
So konvertieren Sie Bilder mit C# .NET in durchsuchbare PDF-Dateien
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);