Ilmainen JavaScript‑kirjasto, jonka avulla voidaan jäsentää tekstiä skannatuista kuvista ja lomakkeista
Avoimen lähdekoodin optinen merkkien tunnistus (OCR) JavaScript‑kirjasto, jonka avulla voidaan jäsentää tekstiä mustavalkoisista skannatuista kuvista ja asiakirjoista, sisältäen kuvien esikäsittelyn ja mallipohjat tuen verkkosovelluksissa tai Node.js‑sovelluksissa.
Nykyisessä digitaalisessa maailmassa optisen merkkien tunnistuksen (OCR) teknologia näyttelee keskeistä roolia skannattujen kuvien, käsinkirjoitettujen muistiinpanojen tai painettujen asiakirjojen muuntamisessa muokattavaksi ja haettavaksi tiedoksi. JavaScript‑kehittäjille, jotka etsivät kevyttä ja avointa ratkaisua, Guten OCR tarjoaa vakuuttavan vaihtoehdon. Tämä JavaScript‑pohjainen OCR‑moottori on suunniteltu yksinkertaisuuden mielessä, mikä tekee siitä ihanteellisen OCR‑ominaisuuksien upottamiseen suoraan selain‑ tai Node.js‑sovelluksiin. Kirjastossa on useita tärkeitä ominaisuuksia, kuten merkkien tunnistus mallipohjien avulla, kuvan kynnysarvojen asettaminen ja binarisointi, merkkien segmentointi, mallipohjien vertailu ja tekstin kokoaminen, modulaarinen koodipohja‑tuki ja niin edelleen. Se keskittyy painetun tekstin tunnistamiseen mustavalkoisista skannatuista asiakirjoista ja soveltuu parhaiten hyvin muotoiltuun tekstiin, kuten kirjoihin tai lomakkeisiin.
Guten OCR on avoimen lähdekoodin JavaScript OCR‑moottori, jonka on luonut Gutenye. Toisin kuin raskaat OCR‑työkalut, jotka vaativat ulkoisia riippuvuuksia tai laajaa asennusta, Guten OCR on kirjoitettu kokonaan JavaScriptillä, mikä tarkoittaa, että se voi toimia verkkoselaimessa tai palvelimella Node.js:n kanssa. Kirjasto käyttää peruskuvankäsittelytekniikoita merkkien segmentointiin ja niiden tunnistamiseen merkkikuviin perustuvan tunnistusjärjestelmän avulla. Vaikka se ei vielä kilpaile kaupallisten OCR‑moottoreiden, kuten Tesseractin, kanssa monikielisen tai käsinkirjoitetun tekstin tuessa, sen yksinkertaisuus ja muokattavuus tekevät siitä loistavan vaihtoehdon opetusprojekteihin, konseptien todistamiseen tai räätälöityjen web‑sovellusten OCR‑ominaisuuksiin. Toisin kuin Tesseract tai muut suuremmat moottorit, Guten OCR on tarkoituksellisesti kevyt ja keskittynyt – mikä tekee siitä erinomaisen lähtökohdan niille, jotka haluavat ymmärtää, miten OCR toimii sisäisesti.
Aloittaminen Guten OCR:n kanssa
Suositeltu tapa asentaa Guten OCR on Brew‑n käyttö. Käytä seuraavaa komentoa sujuvan asennuksen varmistamiseksi
Asenna Guten OCR Brewin kautta
brew install git-lfs Asenna Guten OCR GitHubin kautta
git clone git@github.com:gutenye/ocr.git Voit myös asentaa sen manuaalisesti; lataa uusimmat julkaisutiedostot suoraan GitHub‑repositoriosta.
Kuvan esikäsittely ennen OCR‑toimintoja
Avoimen lähdekoodin Guten OCR ‑kirjasto on kirjoitettu kokonaan JavaScriptillä, mikä tekee siitä yhteensopivan sekä selaimen että Node.js‑ympäristöjen kanssa. Se sisältää sisäänrakennetut kuvankäsittelytoiminnot, jotka parantavat tunnistuksen tarkkuutta. Se tukee kuvien binarisointia (muuntaa mustavalkoiseksi), kohinan vähentämistä, vinouden korjausta ja muuta. Seuraava esimerkki näyttää, miten kehittäjät voivat soveltaa useita kuvankäsittelyvaiheita ennen OCR‑toiminnon suorittamista kuvissa.
Kuinka soveltaa kuvien esikäsittelyä ennen OCR‑toimintoa JavaScript‑kirjaston avulla?
const { preprocess } = require('guten-ocr');
// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
'grayscale', // Convert to grayscale
'binarize', // Convert to black and white
'deskew', // Correct skew
'denoise' // Reduce noise
]);
// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);
Merkkien tunnistus mallipohjien avulla
JavaScript‑kirjasto Guten OCR on tarjonnut täydellisen tuen OCR‑toimintojen suorittamiseen mallipohjien avulla JavaScript‑sovelluksissa. Guten OCR:n ytimessä on mallipohjien vertailujärjestelmä. Sen sijaan, että kouluttaisi koneoppimismallin, se käyttää ennalta määritettyjä merkkikuviota. Tämä tekee järjestelmästä nopeamman ja helpommin ymmärrettävän, mutta herkemmän fontti‑ ja asettelukonsistenssille. Tehtävän suorittamiseksi kirjasto renderöi jokaisen merkin (A–Z, a–z, 0–9, jne.) canvas‑elementtiin ja sitten binäärimatriisin jokaiselle merkille tulee referenssimalli. Kun kuvaa analysoidaan, kirjasto vertaa kuvan segmenttejä näihin malleihin löytääkseen parhaan osuman. Se tekee tämän yhdistämällä pystysuoraa ja vaakasuoraa viivaskannausta raja‑alueiden paikantamiseksi.
Merkkien segmentointi OCR‑kirjaston avulla
Avoimen lähdekoodin JavaScript‑kirjasto Guten OCR mahdollistaa ohjelmistokehittäjille merkkien segmentoinnin helposti. Kun kuva on binarisoitu, seuraava vaihe on yksittäisten merkkien segmentointi. Guten OCR skannaa rivejä ja sarakkeita havaitakseen tiheästi mustia pikseleitä sisältäviä alueita, erottaen ne mahdollisiksi merkeiksi. Seuraava esimerkki osoittaa, miten ohjelmistokehittäjät voivat suorittaa merkkien segmentointia JavaScript OCR ‑kirjastolla.