1. produkty
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Open Source .NET API pro OCR pro zpracování textu a obrázků

Open Source .NET Optical Character Recognition (OCR) API používané k převodu obrázků (naskenovaných obrázků a souborů PDF) obsahujících text na strojově čitelný text.

Tesseract je velmi výkonný open source engine pro optické rozpoznávání znaků (OCR), který umožňuje vývojářům softwaru převádět různé typy obrázků obsahujících text na strojově čitelný text v aplikacích Pythonu. Open source technologie způsobila revoluci ve způsobu, jakým vývojáři softwaru vytvářejí své aplikace, protože jim usnadňuje přístup a integraci výkonných nástrojů a knihoven do jejich aplikací. Jedná se o .NET wrapper pro tesseract-ocr a lze jej použít v široké řadě aplikací, od skenování dokumentů a extrakce dat až po automatické rozpoznávání a překlad obrázků.

Tesseract byl původně vyvinut v 80. letech 20. století společností Hewlett-Packard a později byl v roce 2005 vydán jako open source projekt. Od té doby se stal jedním z nejrozšířenějších OCR enginů na světě s podporou Unicode (UTF -8), přes 100 jazyků a schopnost zpracovávat širokou škálu obrazových formátů. Součástí API jsou různé funkce, jako je skenování dokumentů, digitalizace dokumentů, umožnění vyhledávání v dokumentech, vytváření strojově čitelných dokumentů, optimalizace výkonu OCR a mnoho dalších.

Tesseract se velmi snadno ovládá a je navržen tak, aby rozpoznával text v digitálních obrázcích v široké škále obrazových formátů, jako jsou JPEG, BMP, PSD, PNG, TIFF a mnoho dalších. Knihovna je vysoce přizpůsobitelná a nabízí širokou škálu možností, které lze použít k optimalizaci výkonu OCR pro různé typy obrázků a textu. Ať už pracujete na skenování a digitalizaci dokumentů, extrakci dat nebo rozpoznávání a překladu obrázků, Tesseract nabízí výkonné a spolehlivé řešení, které vám pomůže rychle a snadno dosáhnout vašich cílů.

Previous Next

Začínáme s Tesseract

Doporučeným způsobem instalace Tesseract je použití NuGet. Pro bezproblémovou instalaci použijte prosím následující příkaz.

Nainstalujte Tesseract přes NuGet

 Install-Package Tesseract 

Nainstalujte Tesseract přes GitHub

 git clone https://github.com/charlesw/tesseract.git 

Extrahujte základní text z obrázku přes C#

Open source C# knihovna Tesseract umožňuje vývojářům softwaru extrahovat text z obrázku uvnitř jejich vlastních aplikací .NET. Knihovna usnadňuje vývojářům softwaru snadné načítání textového obsahu naskenovaných dokumentů nebo obrázků a jejich použití pro další zpracování nebo analýzu. K dosažení tohoto úkolu musí vývojáři nejprve importovat jmenný prostor Tesseract do vašeho souboru kódu a vytvořit instanci enginu Tesseract. Následující příklad ukazuje, jak extrahovat základní text z obrázku a odeslat jej do konzole.

Jak extrahovat základní text z obrázku přes C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Převést obrázek do PDF s možností vyhledávání přes C# .NET

Open source knihovna C# Tesseract obsahuje některé užitečné funkce pro převod obrázků na dokumenty PDF s možností vyhledávání pomocí kódu C#. Knihovna také obsahuje podporu pro různé výstupní formáty, jako je prostý text, hOCR (HTML), PDF, PDF, pouze neviditelný text, TSV, ALTO a mnoho dalších. Pamatujte, že pro dosažení lepších výsledků OCR musí vývojáři zlepšit kvalitu obrázků, které budou poskytovat společnosti Tesseract. Následující příklad ukazuje, jak vytvořit prohledávatelný dokument PDF obsahující rozpoznaný text z obrázku.

Jak převést obrázek do PDF s možností vyhledávání pomocí C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Čeština