Bezmaksas JavaScript bibliotēka teksta parsēšanai no skenētiem attēliem un formām

Atvērtā koda optiskās rakstzīmju atpazīšanas (OCR) JavaScript bibliotēka teksta parsēšanai no melnbaltām skenētām attēliem un dokumentiem ar attēlu priekšapstrādes un veidņu atbalstu tīmekļa vai Node.js lietotnēs.

Mūsdienu digitālajā pasaulē optiskās rakstzīmju atpazīšanas (OCR) tehnoloģija spēlē kritisku lomu, pārvēršot skenētus attēlus, rokraksta piezīmes vai drukātus dokumentus rediģējamā un meklējamā informācijā. JavaScript izstrādātājiem, kas meklē vieglu un atvērtā koda risinājumu, Guten OCR piedāvā pārliecinošu izvēli. Šis uz JavaScript balstīts OCR dzinējs ir izstrādāts ar vienkāršību prātā, padarot to ideālu OCR funkciju integrēšanai tieši pārlūkā vai Node.js lietojumprogrammās. Bibliotēka ietver vairākas svarīgas funkcijas, piemēram, rakstzīmju atpazīšanu, izmantojot veidnes, attēlu sliekšņa noteikšanu un binarizāciju, rakstzīmju segmentēšanu, veidņu saskaņošanu un teksta apvienošanu, moduļu koda bāzes atbalstu un citus. Tā koncentrējas uz drukāta teksta atpazīšanu no melnbaltām skenētām dokumentiem un vislabāk piemērota labi formatētam tekstam, piemēram, grāmatām vai anketām.

Guten OCR ir atvērtā koda JavaScript OCR dzinējs, ko izveidojis Gutenye. Atšķirībā no smagajiem OCR rīkiem, kam nepieciešamas ārējas atkarības vai plaša uzstādīšana, Guten OCR ir pilnībā uzrakstīts JavaScript, kas ļauj darboties pārlūkā vai serverī ar Node.js. Bibliotēka izmanto pamata attēlu apstrādes tehnikas, lai segmentētu rakstzīmes un identificētu tās, izmantojot rakstzīmju paraugu atpazīšanas sistēmu. Lai gan tas vēl nav spējīgs sacensties ar komerciālajiem OCR dzinējiem, piemēram, Tesseract, daudzvalodu vai rokraksta atbalsta ziņā, tā vienkāršība un pārveidojamība padara to par lielisku izvēli izglītības projektiem, pierādījumu konceptiem vai integrētām OCR funkcijām pielāgotās tīmekļa lietotnēs. Atšķirībā no Tesseract vai citiem lielākiem dzinējiem, Guten OCR ir apzināti viegls un koncentrēts — tas ir lielisks sākumpunkts tiem, kas vēlas izprast, kā OCR darbojas “zem virsmas”.

Pārskats

Pārskats par Guten OCR funkcijām.

Funkciju pārskats

Parsēt attēlu tekstu
Uzlikt OCR attēliem
Atpazīt attēla tekstu
Pārveidot teksta attēlus
Atpazīts fonta teksts
Attēlu priekšapstrāde
Izmantot veidnes OCR
Izveidot OCR lietotnes
Saglabāt pārlūkā
Izvilkt tekstu
Vairāku pavedienu atbalsts

Guten OCR

Guten OCR atbalsta populārus attēlu failu formātus, kas norādīti zemāk.

Lasītājs

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rakstītājs

PNG, JPEG, BMP, TIFF

Guten OCR

Platformas neatkarība

Guten OCR var darboties ar jebkuru Java balstītu programmēšanas valodu

Java izpildlaiks

Guten OCR

Kā sākt darbu ar Guten OCR

Ieteicamais veids, kā instalēt Guten OCR, ir izmantot Brew. Lūdzu, izmantojiet šādu komandu, lai veiktu instalāciju

Instalēt Guten OCR, izmantojot Brew

 brew install git-lfs

Instalēt Guten OCR, izmantojot GitHub

 git clone git@github.com:gutenye/ocr.git

Jūs varat arī instalēt to manuāli; lejupielādējiet jaunāko izlaiduma failus tieši no GitHub krātuves.

Attēlu priekšapstrāde pirms OCR operācijām

Atvērtā koda Guten OCR bibliotēka ir pilnībā uzrakstīta JavaScript, padarot to saderīgu gan ar pārlūkprogrammu, gan ar Node.js vidēm. Tā ietver iebūvētas attēlu priekšapstrādes funkcijas, lai uzlabotu atpazīšanas precizitāti. Tā atbalsta attēlu binarizāciju (pārvēršana melnā un baltā), trokšņa samazināšanu, slīpuma korekciju un daudz ko citu. Zemāk esošais piemērs parāda, kā izstrādātāji var piemērot vairākus attēlu priekšapstrādes soļus pirms OCR operācijas uz attēliem.

Kā piemērot attēlu priekšapstrādi pirms OCR operācijas, izmantojot JavaScript bibliotēku?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Rakstzīmju atpazīšana, izmantojot veidnes

JavaScript bibliotēka Guten OCR nodrošina pilnu atbalstu OCR operāciju veikšanai, izmantojot veidnes JavaScript lietojumprogrammās. Guten OCR sirdī ir veidņu saskaņošanas sistēma. Tā vietā, lai apmācītu mašīnmācīšanās modeli, tiek izmantoti iepriekš definēti rakstzīmju modeļi. Tas padara sistēmu ātrāku un vieglāk saprotamu, bet arī jutīgāku pret fonta un izkārtojuma konsekvenci. Lai veiktu šo uzdevumu, bibliotēka attēlo katru rakstzīmi (A–Z, a–z, 0–9 utt.) audeklā, un katras rakstzīmes binārā matrica kļūst par atsauces veidni. Analizējot attēlu, bibliotēka salīdzina attēla segmentus ar šīm veidnēm, lai atrastu vislabāko atbilstību. Tas tiek darīts, izmantojot gan vertikālo, gan horizontālo līniju skenēšanu, lai noteiktu robežlodziņus.

Rakstzīmju segmentēšana, izmantojot OCR bibliotēku

Atvērtā koda JavaScript bibliotēka Guten OCR ļauj programmatūras izstrādātājiem viegli veikt rakstzīmju segmentēšanu. Kad attēls ir binarizēts, nākamais solis ir segmentēt atsevišķas rakstzīmes. Guten OCR skenē rindas un kolonnas, lai noteiktu blokus ar blīvu melno pikseļu koncentrāciju, atdalot tos par potenciālām rakstzīmēm. Zemāk esošais piemērs demonstrē, kā programmatūras izstrādātāji var veikt rakstzīmju segmentēšanu, izmantojot JavaScript OCR bibliotēku.

Kā veikt rakstzīmju segmentēšanu, izmantojot JavaScript bibliotēku?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]