1. Produktai
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Atvirojo kodo .NET API, skirta OCR apdoroti tekstui ir vaizdams

Atvirojo kodo .NET optinio simbolių atpažinimo (OCR) API, naudojama vaizdams (nuskaitytiems vaizdams ir PDF failams), kuriuose yra tekstas, konvertuoti į mašininiu būdu skaitomą tekstą.

Tesseract yra labai galingas atvirojo kodo optinio simbolių atpažinimo (OCR) variklis, leidžiantis programinės įrangos kūrėjams konvertuoti įvairaus tipo vaizdus su tekstu į mašininiu būdu skaitomą tekstą Python programose. Atvirojo kodo technologija pakeitė tai, kaip programinės įrangos kūrėjai kuria savo programas, todėl jiems lengviau pasiekti ir integruoti galingus įrankius ir bibliotekas į savo programas. Tai .NET įvynioklis, skirtas tesseract-ocr ir gali būti naudojamas įvairiose programose – nuo ​​dokumentų nuskaitymo ir duomenų ištraukimo iki automatinio vaizdo atpažinimo ir vertimo.

„Tesseract“ devintajame dešimtmetyje sukūrė „Hewlett-Packard“, o vėliau 2005 m. buvo išleistas kaip atvirojo kodo projektas. Nuo tada jis tapo vienu iš plačiausiai naudojamų OCR variklių pasaulyje, palaikomas Unicode (UTF). -8), daugiau nei 100 kalbų ir galimybė apdoroti įvairius vaizdo formatus. Yra įvairių API dalių, tokių kaip dokumentų nuskaitymas, dokumentų skaitmeninimas, dokumentų paieška, mašininiu būdu nuskaitomų dokumentų kūrimas, OCR našumo optimizavimas ir daug daugiau.

Tesseract yra labai paprasta valdyti ir yra sukurta atpažinti tekstą skaitmeniniuose vaizduose įvairiuose vaizdo formatuose, pvz., JPEG, BMP, PSD, PNG, TIFF ir daugelyje kitų. Biblioteka yra lengvai pritaikoma, joje yra daugybė parinkčių, kurias galima naudoti optimizuojant įvairių tipų vaizdų ir teksto OCR našumą. Nesvarbu, ar dirbate su dokumentų nuskaitymu ir skaitmeninimu, duomenų išgavimu, vaizdų atpažinimu ir vertimu, Tesseract siūlo galingą ir patikimą sprendimą, kuris gali padėti greitai ir lengvai pasiekti savo tikslus.

Previous Next

Darbo Tesseract pradžia

Rekomenduojamas „Tesseract“ diegimo būdas yra „NuGet“. Norėdami sklandžiai įdiegti, naudokite šią komandą.

Įdiekite „Tesseract“ per „NuGet“

 Install-Package Tesseract 

Įdiekite „Tesseract“ per „GitHub“

 git clone https://github.com/charlesw/tesseract.git 

Iš vaizdo ištraukite pagrindinį tekstą naudodami C#

Atvirojo kodo C# biblioteka Tesseract leidžia programinės įrangos kūrėjams išgauti tekstą iš vaizdo savo .NET programose. Biblioteka leidžia programinės įrangos kūrėjams lengvai gauti nuskaitytų dokumentų ar vaizdų tekstinį turinį ir naudoti jį tolesniam apdorojimui ar analizei. Norėdami atlikti užduotį, pirmiausia kūrėjai turi importuoti Tesseract vardų erdvę į kodo failą ir sukurti Tesseract variklio egzempliorių. Šiame pavyzdyje parodyta, kaip iš vaizdo išgauti pagrindinį tekstą ir išvesti jį į konsolę.

Kaip ištraukti pagrindinį tekstą iš vaizdo naudojant C# API?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Konvertuokite vaizdą į PDF, kuriame galima ieškoti, naudodami C# .NET

Atvirojo kodo C# bibliotekoje Tesseract yra keletas naudingų funkcijų, skirtų konvertuoti vaizdus į PDF dokumentus, kuriuose galima ieškoti, naudojant C# kodą. Biblioteka taip pat palaiko įvairius išvesties formatus, tokius kaip paprastas tekstas, hOCR (HTML), PDF, tik nematomas tekstas PDF, TSV, ALTO ir daugelis kitų. Atminkite, kad norint gauti geresnių OCR rezultatų, kūrėjas turi pagerinti vaizdų, kuriuos jie ketina pateikti „Tesseract“, kokybę. Šiame pavyzdyje parodyta, kaip sukurti ieškomą PDF dokumentą su atpažintu tekstu iš vaizdo.

Kaip konvertuoti vaizdą į PDF, kuriame galima ieškoti, naudojant C# .NET

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Lietuvių