Atvērtā pirmkoda .NET API OCR teksta un attēlu apstrādei
Atvērtā pirmkoda .NET Optical Character Recognition (OCR) API, ko izmanto, lai attēlus (skenētus attēlus un PDF failus), kas satur tekstu, pārveidotu mašīnlasāmā tekstā.
Tesseract ir ļoti jaudīgs atvērtā pirmkoda optiskās rakstzīmju atpazīšanas (OCR) dzinējs, kas ļauj programmatūras izstrādātājiem pārvērst dažāda veida attēlus, kas satur tekstu, mašīnlasāmā tekstā Python lietojumprogrammās. Atvērtā pirmkoda tehnoloģija ir mainījusi veidu, kā programmatūras izstrādātāji veido savas lietojumprogrammas, atvieglojot piekļuvi spēcīgiem rīkiem un bibliotēkām un to integrēšanu savās lietojumprogrammās. Tas ir .NET iesaiņojums, kas paredzēts tesseract-ocr, un to var izmantot dažādās lietojumprogrammās, sākot no dokumentu skenēšanas un datu ieguves līdz automātiskai attēlu atpazīšanai un tulkošanai.
Sākotnēji Tesseract 20. gadsimta 80. gados izstrādāja Hewlett-Packard, un vēlāk 2005. gadā tas tika izlaists kā atvērtā pirmkoda projekts. Kopš tā laika tas ir kļuvis par vienu no pasaulē visplašāk izmantotajiem OCR dzinējiem ar Unicode (UTF) atbalstu. -8), vairāk nekā 100 valodas un iespēja apstrādāt plašu attēlu formātu klāstu. API daļai ir dažādas funkcijas, piemēram, dokumentu skenēšana, dokumentu digitalizācija, dokumentu meklēšanas nodrošināšana, mašīnlasāmu dokumentu izveide, OCR veiktspējas optimizēšana un daudz kas cits.
Tesseract ir ļoti viegli apstrādājama, un tā ir paredzēta teksta atpazīšanai digitālajos attēlos dažādos attēlu formātos, piemēram, JPEG, BMP, PSD, PNG, TIFF un daudzos citos. Bibliotēka ir ļoti pielāgojama, ar plašu opciju klāstu, ko var izmantot, lai optimizētu OCR veiktspēju dažāda veida attēliem un tekstam. Neatkarīgi no tā, vai strādājat ar dokumentu skenēšanu un digitalizāciju, datu ieguvi vai attēlu atpazīšanu un tulkošanu, Tesseract piedāvā jaudīgu un uzticamu risinājumu, kas var palīdzēt ātri un viegli sasniegt savus mērķus.
Darba sākšana ar Tesseract
Ieteicamais Tesseract instalēšanas veids ir NuGet. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.
Instalējiet Tesseract, izmantojot NuGet
Install-Package Tesseract
Instalējiet Tesseract, izmantojot GitHub
git clone https://github.com/charlesw/tesseract.git
Izņemiet pamata tekstu no attēla, izmantojot C#
Atvērtā pirmkoda C# bibliotēka Tesseract ļauj programmatūras izstrādātājiem izvilkt tekstu no attēla savās .NET lietojumprogrammās. Bibliotēka ļauj programmatūras izstrādātājiem viegli izgūt skenēto dokumentu vai attēlu teksta saturu un izmantot to turpmākai apstrādei vai analīzei. Lai izpildītu uzdevumu, vispirms izstrādātājiem ir jāimportē Tesseract nosaukumvieta jūsu koda failā un jāizveido Tesseract dzinēja gadījums. Nākamajā piemērā parādīts, kā no attēla izvilkt pamattekstu un izvadīt to uz konsoli.
Kā izvilkt pamattekstu no attēla, izmantojot C# API?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Pārveidojiet attēlu par meklējamu PDF failu, izmantojot C#.NET
Atvērtā pirmkoda C# bibliotēkā Tesseract ir iekļautas dažas noderīgas funkcijas attēlu konvertēšanai par meklējamiem PDF dokumentiem, izmantojot C# kodu. Bibliotēkā ir iekļauts arī atbalsts dažādiem izvades formātiem, piemēram, vienkāršs teksts, hOCR (HTML), PDF, tikai neredzams teksts PDF, TSV, ALTO un daudzi citi. Lūdzu, ņemiet vērā, ka, lai iegūtu labākus OCR rezultātus, izstrādātājiem ir jāuzlabo to attēlu kvalitāte, ko tie nodrošinās uzņēmumam Tesseract. Šajā piemērā ir parādīts, kā izveidot meklējamu PDF dokumentu, kurā ir atpazītais teksts no attēla.
Kā pārveidot attēlu par meklējamu PDF failu, izmantojot C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);