API .NET ανοιχτού κώδικα για OCR για επεξεργασία κειμένου και εικόνων
API ανοιχτού κώδικα .NET Optical Character Recognition (OCR) που χρησιμοποιείται για τη μετατροπή εικόνων (σαρωμένων εικόνων και αρχείων PDF) που περιέχουν κείμενο σε κείμενο αναγνώσιμο από μηχανή.
Το Tesseract είναι μια πολύ ισχυρή μηχανή οπτικής αναγνώρισης χαρακτήρων ανοιχτού κώδικα (OCR) που επιτρέπει στους προγραμματιστές λογισμικού να μετατρέπουν διάφορους τύπους εικόνων που περιέχουν κείμενο σε κείμενο αναγνώσιμο από μηχανή εντός εφαρμογών Python. Η τεχνολογία ανοιχτού κώδικα έχει φέρει επανάσταση στον τρόπο με τον οποίο οι προγραμματιστές λογισμικού δημιουργούν τις εφαρμογές τους, διευκολύνοντας την πρόσβαση και την ενσωμάτωση ισχυρών εργαλείων και βιβλιοθηκών στις εφαρμογές τους. Είναι ένα περιτύλιγμα .NET για tesseract-ocr και μπορεί να χρησιμοποιηθεί σε ένα ευρύ φάσμα εφαρμογών, από σάρωση εγγράφων και εξαγωγή δεδομένων έως αυτοματοποιημένη αναγνώριση και μετάφραση εικόνων.
Το Tesseract αναπτύχθηκε αρχικά τη δεκαετία του 1980 από τη Hewlett-Packard και αργότερα κυκλοφόρησε ως έργο ανοιχτού κώδικα το 2005. Έκτοτε, έχει γίνει ένας από τους πιο ευρέως χρησιμοποιούμενους κινητήρες OCR στον κόσμο, με υποστήριξη για Unicode (UTF -8), περισσότερες από 100 γλώσσες και τη δυνατότητα επεξεργασίας ενός ευρέος φάσματος μορφών εικόνας. Υπάρχουν διάφορες λειτουργίες του API, όπως σάρωση εγγράφων, ψηφιοποίηση εγγράφων, δυνατότητα αναζήτησης εγγράφων, δημιουργία εγγράφων αναγνώσιμα από μηχανή, βελτιστοποίηση της απόδοσης OCR και πολλά άλλα.
Το Tesseract είναι πολύ εύκολο στη χρήση και έχει σχεδιαστεί για να αναγνωρίζει κείμενο μέσα σε ψηφιακές εικόνες σε ένα ευρύ φάσμα μορφών εικόνας, όπως JPEG, BMP, PSD, PNG, TIFF και πολλά άλλα. Η βιβλιοθήκη είναι εξαιρετικά προσαρμόσιμη, με ένα ευρύ φάσμα επιλογών που μπορούν να χρησιμοποιηθούν για τη βελτιστοποίηση της απόδοσης OCR για διαφορετικούς τύπους εικόνων και κειμένου. Είτε εργάζεστε για σάρωση και ψηφιοποίηση εγγράφων, εξαγωγή δεδομένων ή αναγνώριση και μετάφραση εικόνων, το Tesseract προσφέρει μια ισχυρή και αξιόπιστη λύση που μπορεί να σας βοηθήσει να επιτύχετε τους στόχους σας γρήγορα και εύκολα.
Ξεκινώντας με το Tesseract
Ο προτεινόμενος τρόπος εγκατάστασης του Tesseract είναι η χρήση του NuGet. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.
Εγκαταστήστε το Tesseract μέσω NuGet
Install-Package Tesseract
Εγκαταστήστε το Tesseract μέσω GitHub
git clone https://github.com/charlesw/tesseract.git
Εξαγωγή βασικού κειμένου από μια εικόνα μέσω C#
Η βιβλιοθήκη ανοιχτού κώδικα C# Tesseract επιτρέπει στους προγραμματιστές λογισμικού να εξάγουν κείμενο από μια εικόνα μέσα στις δικές τους εφαρμογές .NET. Η βιβλιοθήκη διευκολύνει τους προγραμματιστές λογισμικού να ανακτούν εύκολα το περιεχόμενο κειμένου των σαρωμένων εγγράφων ή εικόνων και να το χρησιμοποιούν για περαιτέρω επεξεργασία ή ανάλυση. Για να επιτύχουν την εργασία, οι προγραμματιστές πρέπει πρώτα να εισαγάγουν τον χώρο ονομάτων Tesseract στο αρχείο κώδικα και να δημιουργήσουν μια παρουσία της μηχανής Tesseract. Το παρακάτω παράδειγμα δείχνει πώς να εξαγάγετε το βασικό κείμενο από την εικόνα και να το εξάγετε στην κονσόλα.
Πώς να εξαγάγετε το βασικό κείμενο από την εικόνα μέσω C# API;
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Μετατροπή εικόνας σε PDF με δυνατότητα αναζήτησης μέσω C# .NET
Η βιβλιοθήκη ανοιχτού κώδικα C# Tesseract έχει συμπεριλάβει ορισμένες χρήσιμες λειτουργίες για τη μετατροπή εικόνων σε έγγραφα PDF με δυνατότητα αναζήτησης χρησιμοποιώντας κώδικα C#. Η βιβλιοθήκη περιλαμβάνει επίσης υποστήριξη για διάφορες μορφές εξόδου, όπως απλό κείμενο, hOCR (HTML), PDF, PDF μόνο με αόρατο κείμενο, TSV, ALTO και πολλά άλλα. Να θυμάστε ότι για να έχετε καλύτερα αποτελέσματα OCR, οι προγραμματιστές πρέπει να βελτιώσουν την ποιότητα των εικόνων που πρόκειται να παρέχουν στην Tesseract. Το ακόλουθο παράδειγμα δείχνει πώς να δημιουργήσετε ένα έγγραφο PDF με δυνατότητα αναζήτησης που περιέχει το αναγνωρισμένο κείμενο από την εικόνα.
Πώς να μετατρέψετε εικόνα σε PDF με δυνατότητα αναζήτησης χρησιμοποιώντας C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);