Open Source .NET API do OCR do przetwarzania tekstu i obrazów

Interfejs API Open Source .NET Optical Character Recognition (OCR) używany do konwertowania obrazów (zeskanowanych obrazów i plików PDF) zawierających tekst na tekst do odczytu maszynowego.

Tesseract to bardzo wydajny silnik optycznego rozpoznawania znaków (OCR) typu open source, który umożliwia twórcom oprogramowania konwertowanie różnych typów obrazów zawierających tekst na tekst do odczytu maszynowego w aplikacjach Pythona. Technologia open source zrewolucjonizowała sposób, w jaki twórcy oprogramowania tworzą swoje aplikacje, ułatwiając im dostęp do zaawansowanych narzędzi i bibliotek oraz ich integrację w swoich aplikacjach. Jest to opakowanie .NET dla tesseract-ocr i może być używane w szerokim zakresie zastosowań, od skanowania dokumentów i ekstrakcji danych po automatyczne rozpoznawanie i tłumaczenie obrazów.

Tesseract został pierwotnie opracowany w latach 80. XX wieku przez firmę Hewlett-Packard, a później został wydany jako projekt open source w 2005 r. Od tego czasu stał się jednym z najczęściej używanych silników OCR na świecie, obsługującym Unicode (UTF -8), ponad 100 języków i możliwość przetwarzania szerokiej gamy formatów obrazu. Interfejs API obejmuje różne funkcje, takie jak skanowanie dokumentów, digitalizacja dokumentów, umożliwianie przeszukiwania dokumentów, tworzenie dokumentów do odczytu maszynowego, optymalizacja wydajności OCR i wiele innych.

Tesseract jest bardzo łatwy w obsłudze i został zaprojektowany do rozpoznawania tekstu w obrazach cyfrowych w szerokiej gamie formatów graficznych, takich jak JPEG, BMP, PSD, PNG, TIFF i wiele innych. Bibliotekę można w dużym stopniu dostosować do własnych potrzeb, oferując szeroką gamę opcji, które można wykorzystać do optymalizacji wydajności OCR dla różnych typów obrazów i tekstu. Niezależnie od tego, czy pracujesz nad skanowaniem i digitalizacją dokumentów, ekstrakcją danych, czy rozpoznawaniem i tłumaczeniem obrazów, Tesseract oferuje wydajne i niezawodne rozwiązanie, które pomoże Ci szybko i łatwo osiągnąć swoje cele.

W skrócie

Przegląd funkcji Tesseract.

Przegląd funkcji

Wykonaj OCR
Dodaj możliwości OCR
Rozpoznaj tekst obrazu
Przekształcaj obrazy tekstu
Rozpoznany tekst czcionki
Wyszukaj plik PDF
Ponad 100 języków
Twórz aplikacje OCR
Zapisz w przeglądarce
Wyodrębnij tekst
Obsługa wielowątkowości

Tesseract

Tesseract obsługuje popularne formaty plików graficznych wymienione poniżej.

Czytelnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Pisarz

PNG, JPEG, BMP, TIFF

Tesseract

Niezależność od platformy

Tesseract może współpracować z dowolnym językiem programowania .NET

.NET Framework 4.8

Tesseract

Pierwsze kroki z Tesseractem

Zalecanym sposobem instalacji Tesseract jest użycie NuGet. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zainstaluj Tesseract poprzez NuGet

 Install-Package Tesseract

Zainstaluj Tesseract przez GitHub

 git clone https://github.com/charlesw/tesseract.git

Wyodrębnij podstawowy tekst z obrazu za pomocą języka C#

Biblioteka C# typu open source Tesseract umożliwia twórcom oprogramowania wyodrębnianie tekstu z obrazu w ich własnych aplikacjach .NET. Biblioteka ułatwia twórcom oprogramowania łatwe pobieranie treści tekstowej zeskanowanych dokumentów lub obrazów i wykorzystywanie jej do dalszego przetwarzania lub analizy. Aby wykonać to zadanie, programiści muszą najpierw zaimportować przestrzeń nazw Tesseract do pliku kodu i utworzyć instancję silnika Tesseract. Poniższy przykład pokazuje, jak wyodrębnić podstawowy tekst z obrazu i wyprowadzić go na konsolę.

Jak wyodrębnić podstawowy tekst z obrazu za pomocą interfejsu API C#?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Konwertuj obraz na plik PDF z możliwością przeszukiwania za pomocą języka C# .NET

Biblioteka C# o otwartym kodzie źródłowym Tesseract zawiera kilka przydatnych funkcji do konwertowania obrazów na dokumenty PDF z możliwością przeszukiwania przy użyciu kodu C#. Biblioteka obsługuje także różne formaty wyjściowe, takie jak zwykły tekst, hOCR (HTML), PDF, PDF zawierający tylko niewidoczny tekst, TSV, ALTO i wiele innych. Pamiętaj, że aby uzyskać lepsze wyniki OCR, programista musi poprawić jakość obrazów, które będą dostarczać do Tesseract. Poniższy przykład pokazuje, jak utworzyć dokument PDF z możliwością przeszukiwania, zawierający rozpoznany tekst z obrazu.

Jak przekonwertować obraz na plik PDF z możliwością przeszukiwania przy użyciu języka C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);