1. Tuotteet
  2.   OCR
  3.   .NET
  4.   Tesseract
 
  

Avoimen lähdekoodin .NET API OCR:lle tekstin ja kuvien käsittelyyn

Avoimen lähdekoodin .NET Optical Character Recognition (OCR) -sovellusliittymä, jota käytetään tekstiä sisältävien kuvien (skannatut kuvat ja PDF-tiedostot) muuntamiseen koneellisesti luettavaksi tekstiksi.

Tesseract on erittäin tehokas avoimen lähdekoodin optinen merkintunnistusmoottori (OCR), jonka avulla ohjelmistokehittäjät voivat muuntaa erilaisia tekstiä sisältäviä kuvia koneellisesti luettavaksi tekstiksi Python-sovelluksissa. Avoimen lähdekoodin teknologia on mullistanut ohjelmistokehittäjien tavan rakentaa sovelluksiaan helpottamalla tehokkaiden työkalujen ja kirjastojen käyttöä ja integrointia sovelluksiinsa. Se on tesseract-ocr:n .NET-kääre, ja sitä voidaan käyttää monissa sovelluksissa asiakirjojen skannauksesta ja tietojen poimimisesta automaattiseen kuvien tunnistamiseen ja kääntämiseen.

Tesseractin kehitti alun perin 1980-luvulla Hewlett-Packard, ja se julkaistiin myöhemmin avoimen lähdekoodin projektina vuonna 2005. Siitä lähtien siitä on tullut yksi maailman laajimmin käytetyistä OCR-moottoreista Unicode-tuen (UTF) avulla. -8), yli 100 kieltä ja kyky käsitellä monenlaisia kuvamuotoja. Sovellusliittymässä on useita ominaisuuksia, kuten asiakirjojen skannaus, asiakirjojen digitointi, asiakirjojen haettavaksi tekeminen, koneellisesti luettavien asiakirjojen luominen, OCR-suorituskyvyn optimointi ja paljon muuta.

Tesseract on erittäin helppo käsitellä, ja se on suunniteltu tunnistamaan tekstiä digitaalisista kuvista useissa eri kuvamuodoissa, kuten JPEG, BMP, PSD, PNG, TIFF ja monet muut. Kirjasto on erittäin muokattavissa, ja siinä on laaja valikoima vaihtoehtoja, joiden avulla voidaan optimoida OCR-suorituskyky erityyppisille kuville ja tekstille. Työskenteletpä sitten asiakirjojen skannauksen ja digitalisoinnin parissa, tietojen poiminnassa tai kuvien tunnistamisessa ja kääntämisessä, Tesseract tarjoaa tehokkaan ja luotettavan ratkaisun, jonka avulla saavutat tavoitteesi nopeasti ja helposti.

Previous Next

Tesseractin käytön aloittaminen

Suositeltava tapa asentaa Tesseract on NuGet. Käytä seuraavaa komentoa sujuvaan asennukseen.

Asenna Tesseract NuGetin kautta

 Install-Package Tesseract 

Asenna Tesseract GitHubin kautta

 git clone https://github.com/charlesw/tesseract.git 

Pura perusteksti kuvasta C#:n kautta

Avoimen lähdekoodin C#-kirjasto Tesseract antaa ohjelmistokehittäjille mahdollisuuden poimia tekstiä kuvasta omissa .NET-sovelluksissaan. Kirjaston avulla ohjelmistokehittäjät voivat helposti hakea skannattujen asiakirjojen tai kuvien tekstisisällön ja käyttää sitä jatkokäsittelyyn tai analysointiin. Tehtävän saavuttamiseksi kehittäjien on ensin tuotava Tesseract-nimiavaruus kooditiedostoosi ja luotava Tesseract-moottorin esiintymä. Seuraava esimerkki näyttää, kuinka perusteksti voidaan poimia kuvasta ja tulostaa se konsoliin.

Miten perusteksti puretaan kuvasta C# API:n kautta?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

Muunna kuva haettavaksi PDF-tiedostoksi C# .NET:n kautta

Avoimen lähdekoodin C#-kirjasto Tesseract sisältää hyödyllisiä ominaisuuksia kuvien muuntamiseen haettavissa oleviksi PDF-dokumenteiksi C#-koodilla. Kirjastossa on myös tuki erilaisille tulostusmuodoille, kuten tavallinen teksti, hOCR (HTML), PDF, vain näkymätön teksti PDF, TSV, ALTO ja monet muut. Muista, että parempien OCR-tulosten saamiseksi kehittäjien on parannettava Tesseractille toimittamiensa kuvien laatua. Seuraava esimerkki näyttää, kuinka luodaan haettavissa oleva PDF-dokumentti, joka sisältää kuvasta tunnistetun tekstin.

Kuvan muuntaminen haettavaksi PDF-tiedostoksi C# .NET:n avulla

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 Suomen