Open Source .NET API le haghaidh OCR chun Téacs & Íomhánna a Phróiseáil
Foinse Oscailte .NET Optical Charachtar Recognition (OCR) API a úsáidtear chun íomhánna (íomhánna scanta & comhaid PDF) ina bhfuil téacs a thiontú go téacs meaisín-inléite.
Is inneall an-chumhachtach aitheantais optúil carachtar foinse oscailte (OCR) é Tesseract a chuireann ar chumas forbróirí bogearraí cineálacha éagsúla íomhánna ina bhfuil téacs a thiontú go téacs meaisín-inléite laistigh d’fheidhmchláir Python. Tá réabhlóidiú déanta ag teicneolaíocht foinse oscailte ar an mbealach a thógann forbróirí bogearraí a gcuid feidhmchlár trí é a dhéanamh níos éasca dóibh uirlisí agus leabharlanna cumhachtacha a rochtain agus a chomhtháthú laistigh dá bhfeidhmchláir. Is fillteán .NET é le haghaidh tesseract-ocr agus is féidir é a úsáid i raon leathan feidhmchlár, ó scanadh doiciméad agus asbhaint sonraí go híomhánna a aithint agus a aistriú go huathoibríoch.
D’fhorbair Hewlett-Packard Tesseract ar dtús sna 1980idí agus eisíodh é níos déanaí mar thionscadal foinse oscailte in 2005. Ó shin i leith, tá sé ar cheann de na hinnill OCR is mó a úsáidtear ar domhan, le tacaíocht do Unicode (UTF). -8), níos mó ná 100 teanga, agus an cumas chun raon leathan formáidí íomhá a phróiseáil. Tá gnéithe éagsúla mar chuid den API mar scanadh doiciméad, digitiú doiciméad, doiciméid a dhéanamh inchuardaithe, doiciméid inléite ag meaisín a chruthú, feidhmíocht OCR a bharrfheabhsú, agus go leor eile.
Tá Tesseract an-éasca le láimhseáil agus dearadh é chun téacs a aithint laistigh d’íomhánna digiteacha i raon leathan formáidí íomhá, mar JPEG, BMP, PSD, PNG, TIFF, agus go leor eile. Tá an leabharlann an-inoiriúnaithe, le raon leathan roghanna ar féidir a úsáid chun feidhmíocht OCR a bharrfheabhsú le haghaidh cineálacha éagsúla íomhánna agus téacs. Cibé an bhfuil tú ag obair ar scanadh doiciméad agus digitiú, asbhaint sonraí, nó ar aithint íomhánna agus aistriúchán, cuireann Tesseract réiteach cumhachtach iontaofa ar fáil a chabhróidh leat do spriocanna a bhaint amach go tapa agus go héasca.
Tosú ar Tesseract
Is é NuGet an bealach molta chun Tesseract a shuiteáil. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.
Suiteáil Tesseract trí NuGet
Install-Package Tesseract
Install Tesseract via GitHub
git clone https://github.com/charlesw/tesseract.git
Bain Téacs Bunúsach as Íomhá trí C#
Cuireann leabharlann foinse oscailte C# Tesseract ar chumas forbróirí bogearraí téacs a bhaint as íomhá laistigh dá bhfeidhmchláir .NET féin. Éascaíonn an leabharlann d’fhorbróirí bogearraí ábhar téacs doiciméad nó íomhánna scanta a aisghabháil go héasca, agus é a úsáid le haghaidh tuilleadh próiseála nó anailíse. Chun an tasc a bhaint amach ní mór d’fhorbróirí ar dtús spás ainm Tesseract a allmhairiú i do chóidchomhad agus sampla den inneall Tesseract a chruthú. Léiríonn an sampla seo a leanas conas an téacs bunúsach a bhaint as an íomhá agus é a aschur chuig an consól.
Conas an Téacs Bunúsach a Bhaint as Íomhá trí C# API?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Tiontaigh an Íomhá go PDF Inchuardaithe trí C# .NET
Tá roinnt gnéithe úsáideacha san áireamh sa leabharlann foinse oscailte C# Tesseract chun íomhánna a thiontú go doiciméid PDF inchuardaithe ag úsáid cód C#. Áiríodh sa leabharlann freisin tacaíocht d’fhormáidí éagsúla aschuir, mar ghnáth-théacs, hOCR (HTML), PDF, PDF dofheicthe-téacs-amháin, TSV, ALTO agus go leor eile. Cuimhnigh, le do thoil, chun torthaí OCR níos fearr a fháil, go gcaithfidh an forbróir cáilíocht na n-íomhánna atá siad chun a sholáthar do Tesseract a fheabhsú. Taispeánann an sampla seo a leanas conas doiciméad PDF inchuardaithe a chruthú ina bhfuil an téacs aitheanta ón íomhá.
Conas Íomhá a Thiontú go PDF Inchuardaithe ag úsáid C# .NET
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);