API .NET ανοιχτού κώδικα για OCR για επεξεργασία κειμένου και εικόνων

API ανοιχτού κώδικα .NET Optical Character Recognition (OCR) που χρησιμοποιείται για τη μετατροπή εικόνων (σαρωμένων εικόνων και αρχείων PDF) που περιέχουν κείμενο σε κείμενο αναγνώσιμο από μηχανή.

Το Tesseract είναι μια πολύ ισχυρή μηχανή οπτικής αναγνώρισης χαρακτήρων ανοιχτού κώδικα (OCR) που επιτρέπει στους προγραμματιστές λογισμικού να μετατρέπουν διάφορους τύπους εικόνων που περιέχουν κείμενο σε κείμενο αναγνώσιμο από μηχανή εντός εφαρμογών Python. Η τεχνολογία ανοιχτού κώδικα έχει φέρει επανάσταση στον τρόπο με τον οποίο οι προγραμματιστές λογισμικού δημιουργούν τις εφαρμογές τους, διευκολύνοντας την πρόσβαση και την ενσωμάτωση ισχυρών εργαλείων και βιβλιοθηκών στις εφαρμογές τους. Είναι ένα περιτύλιγμα .NET για tesseract-ocr και μπορεί να χρησιμοποιηθεί σε ένα ευρύ φάσμα εφαρμογών, από σάρωση εγγράφων και εξαγωγή δεδομένων έως αυτοματοποιημένη αναγνώριση και μετάφραση εικόνων.

Το Tesseract αναπτύχθηκε αρχικά τη δεκαετία του 1980 από τη Hewlett-Packard και αργότερα κυκλοφόρησε ως έργο ανοιχτού κώδικα το 2005. Έκτοτε, έχει γίνει ένας από τους πιο ευρέως χρησιμοποιούμενους κινητήρες OCR στον κόσμο, με υποστήριξη για Unicode (UTF -8), περισσότερες από 100 γλώσσες και τη δυνατότητα επεξεργασίας ενός ευρέος φάσματος μορφών εικόνας. Υπάρχουν διάφορες λειτουργίες του API, όπως σάρωση εγγράφων, ψηφιοποίηση εγγράφων, δυνατότητα αναζήτησης εγγράφων, δημιουργία εγγράφων αναγνώσιμα από μηχανή, βελτιστοποίηση της απόδοσης OCR και πολλά άλλα.

Το Tesseract είναι πολύ εύκολο στη χρήση και έχει σχεδιαστεί για να αναγνωρίζει κείμενο μέσα σε ψηφιακές εικόνες σε ένα ευρύ φάσμα μορφών εικόνας, όπως JPEG, BMP, PSD, PNG, TIFF και πολλά άλλα. Η βιβλιοθήκη είναι εξαιρετικά προσαρμόσιμη, με ένα ευρύ φάσμα επιλογών που μπορούν να χρησιμοποιηθούν για τη βελτιστοποίηση της απόδοσης OCR για διαφορετικούς τύπους εικόνων και κειμένου. Είτε εργάζεστε για σάρωση και ψηφιοποίηση εγγράφων, εξαγωγή δεδομένων ή αναγνώριση και μετάφραση εικόνων, το Tesseract προσφέρει μια ισχυρή και αξιόπιστη λύση που μπορεί να σας βοηθήσει να επιτύχετε τους στόχους σας γρήγορα και εύκολα.

Μια ματιά

Μια επισκόπηση των λειτουργιών του Tesseract.

Επισκόπηση χαρακτηριστικών

Εκτελέστε OCR
Προσθήκη δυνατοτήτων OCR
Αναγνώριση κειμένου εικόνας
Δημιουργήστε εικόνες κειμένου
Κείμενο αναγνωρισμένης γραμματοσειράς
Αναζήτηση PDF
Πάνω από 100 γλώσσες
Δημιουργία εφαρμογών OCR
Αποθήκευση στο πρόγραμμα περιήγησης
Εξαγωγή κειμένου
Υποστήριξη πολλαπλών νημάτων

Tesseract

Το Tesseract υποστηρίζει δημοφιλείς μορφές αρχείων εικόνας που αναφέρονται παρακάτω.

Αναγνώστης

PNG, JPEG, BMP, TIFF, TGA, DICOM

Συγγραφέας

PNG, JPEG, BMP, TIFF

Tesseract

Platform Independence

Tesseract can work with any .NET programming language

.NET Framework 4.8

Tesseract

Ξεκινώντας με το Tesseract

Ο προτεινόμενος τρόπος εγκατάστασης του Tesseract είναι η χρήση του NuGet. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.

Εγκαταστήστε το Tesseract μέσω NuGet

 Install-Package Tesseract

Εγκαταστήστε το Tesseract μέσω GitHub

 git clone https://github.com/charlesw/tesseract.git

Εξαγωγή βασικού κειμένου από μια εικόνα μέσω C#

Η βιβλιοθήκη ανοιχτού κώδικα C# Tesseract επιτρέπει στους προγραμματιστές λογισμικού να εξάγουν κείμενο από μια εικόνα μέσα στις δικές τους εφαρμογές .NET. Η βιβλιοθήκη διευκολύνει τους προγραμματιστές λογισμικού να ανακτούν εύκολα το περιεχόμενο κειμένου των σαρωμένων εγγράφων ή εικόνων και να το χρησιμοποιούν για περαιτέρω επεξεργασία ή ανάλυση. Για να επιτύχουν την εργασία, οι προγραμματιστές πρέπει πρώτα να εισαγάγουν τον χώρο ονομάτων Tesseract στο αρχείο κώδικα και να δημιουργήσουν μια παρουσία της μηχανής Tesseract. Το παρακάτω παράδειγμα δείχνει πώς να εξαγάγετε το βασικό κείμενο από την εικόνα και να το εξάγετε στην κονσόλα.

Πώς να εξαγάγετε το βασικό κείμενο από την εικόνα μέσω C# API;

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Μετατροπή εικόνας σε PDF με δυνατότητα αναζήτησης μέσω C# .NET

Η βιβλιοθήκη ανοιχτού κώδικα C# Tesseract έχει συμπεριλάβει ορισμένες χρήσιμες λειτουργίες για τη μετατροπή εικόνων σε έγγραφα PDF με δυνατότητα αναζήτησης χρησιμοποιώντας κώδικα C#. Η βιβλιοθήκη περιλαμβάνει επίσης υποστήριξη για διάφορες μορφές εξόδου, όπως απλό κείμενο, hOCR (HTML), PDF, PDF μόνο με αόρατο κείμενο, TSV, ALTO και πολλά άλλα. Να θυμάστε ότι για να έχετε καλύτερα αποτελέσματα OCR, οι προγραμματιστές πρέπει να βελτιώσουν την ποιότητα των εικόνων που πρόκειται να παρέχουν στην Tesseract. Το ακόλουθο παράδειγμα δείχνει πώς να δημιουργήσετε ένα έγγραφο PDF με δυνατότητα αναζήτησης που περιέχει το αναγνωρισμένο κείμενο από την εικόνα.

Πώς να μετατρέψετε εικόνα σε PDF με δυνατότητα αναζήτησης χρησιμοποιώντας C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);