Avoimen lähdekoodin .NET API OCR:lle tekstin ja kuvien käsittelyyn
Avoimen lähdekoodin .NET Optical Character Recognition (OCR) -sovellusliittymä, jota käytetään tekstiä sisältävien kuvien (skannatut kuvat ja PDF-tiedostot) muuntamiseen koneellisesti luettavaksi tekstiksi.
Tesseract on erittäin tehokas avoimen lähdekoodin optinen merkintunnistusmoottori (OCR), jonka avulla ohjelmistokehittäjät voivat muuntaa erilaisia tekstiä sisältäviä kuvia koneellisesti luettavaksi tekstiksi Python-sovelluksissa. Avoimen lähdekoodin teknologia on mullistanut ohjelmistokehittäjien tavan rakentaa sovelluksiaan helpottamalla tehokkaiden työkalujen ja kirjastojen käyttöä ja integrointia sovelluksiinsa. Se on tesseract-ocr:n .NET-kääre, ja sitä voidaan käyttää monissa sovelluksissa asiakirjojen skannauksesta ja tietojen poimimisesta automaattiseen kuvien tunnistamiseen ja kääntämiseen.
Tesseractin kehitti alun perin 1980-luvulla Hewlett-Packard, ja se julkaistiin myöhemmin avoimen lähdekoodin projektina vuonna 2005. Siitä lähtien siitä on tullut yksi maailman laajimmin käytetyistä OCR-moottoreista Unicode-tuen (UTF) avulla. -8), yli 100 kieltä ja kyky käsitellä monenlaisia kuvamuotoja. Sovellusliittymässä on useita ominaisuuksia, kuten asiakirjojen skannaus, asiakirjojen digitointi, asiakirjojen haettavaksi tekeminen, koneellisesti luettavien asiakirjojen luominen, OCR-suorituskyvyn optimointi ja paljon muuta.
Tesseract on erittäin helppo käsitellä, ja se on suunniteltu tunnistamaan tekstiä digitaalisista kuvista useissa eri kuvamuodoissa, kuten JPEG, BMP, PSD, PNG, TIFF ja monet muut. Kirjasto on erittäin muokattavissa, ja siinä on laaja valikoima vaihtoehtoja, joiden avulla voidaan optimoida OCR-suorituskyky erityyppisille kuville ja tekstille. Työskenteletpä sitten asiakirjojen skannauksen ja digitalisoinnin parissa, tietojen poiminnassa tai kuvien tunnistamisessa ja kääntämisessä, Tesseract tarjoaa tehokkaan ja luotettavan ratkaisun, jonka avulla saavutat tavoitteesi nopeasti ja helposti.
Tesseractin käytön aloittaminen
Suositeltava tapa asentaa Tesseract on NuGet. Käytä seuraavaa komentoa sujuvaan asennukseen.
Asenna Tesseract NuGetin kautta
Install-Package Tesseract
Asenna Tesseract GitHubin kautta
git clone https://github.com/charlesw/tesseract.git
Pura perusteksti kuvasta C#:n kautta
Avoimen lähdekoodin C#-kirjasto Tesseract antaa ohjelmistokehittäjille mahdollisuuden poimia tekstiä kuvasta omissa .NET-sovelluksissaan. Kirjaston avulla ohjelmistokehittäjät voivat helposti hakea skannattujen asiakirjojen tai kuvien tekstisisällön ja käyttää sitä jatkokäsittelyyn tai analysointiin. Tehtävän saavuttamiseksi kehittäjien on ensin tuotava Tesseract-nimiavaruus kooditiedostoosi ja luotava Tesseract-moottorin esiintymä. Seuraava esimerkki näyttää, kuinka perusteksti voidaan poimia kuvasta ja tulostaa se konsoliin.
Miten perusteksti puretaan kuvasta C# API:n kautta?
using Tesseract;
using System.Drawing;
namespace MyNamespace
{
class Program
{
static void Main(string[] args)
{
var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
var image = new Bitmap(@"C:\path\to\your\image.jpg");
var page = engine.Process(image);
var text = page.GetText();
image.Dispose();
page.Dispose();
engine.Dispose();
Console.WriteLine(text);
}
}
}
Muunna kuva haettavaksi PDF-tiedostoksi C# .NET:n kautta
Avoimen lähdekoodin C#-kirjasto Tesseract sisältää hyödyllisiä ominaisuuksia kuvien muuntamiseen haettavissa oleviksi PDF-dokumenteiksi C#-koodilla. Kirjastossa on myös tuki erilaisille tulostusmuodoille, kuten tavallinen teksti, hOCR (HTML), PDF, vain näkymätön teksti PDF, TSV, ALTO ja monet muut. Muista, että parempien OCR-tulosten saamiseksi kehittäjien on parannettava Tesseractille toimittamiensa kuvien laatua. Seuraava esimerkki näyttää, kuinka luodaan haettavissa oleva PDF-dokumentti, joka sisältää kuvasta tunnistetun tekstin.
Kuvan muuntaminen haettavaksi PDF-tiedostoksi C# .NET:n avulla
using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());
Console.WriteLine("Text (GetText): \r\n{0}", text);
Console.WriteLine("Text (iterator):");
}
}
}
FORMAT_PLAINTEXT);