Ilmainen JavaScript‑kirjasto, jonka avulla voidaan jäsentää tekstiä skannatuista kuvista ja lomakkeista

Avoimen lähdekoodin optinen merkkien tunnistus (OCR) JavaScript‑kirjasto, jonka avulla voidaan jäsentää tekstiä mustavalkoisista skannatuista kuvista ja asiakirjoista, sisältäen kuvien esikäsittelyn ja mallipohjat tuen verkkosovelluksissa tai Node.js‑sovelluksissa.

Nykyisessä digitaalisessa maailmassa optisen merkkien tunnistuksen (OCR) teknologia näyttelee keskeistä roolia skannattujen kuvien, käsinkirjoitettujen muistiinpanojen tai painettujen asiakirjojen muuntamisessa muokattavaksi ja haettavaksi tiedoksi. JavaScript‑kehittäjille, jotka etsivät kevyttä ja avointa ratkaisua, Guten OCR tarjoaa vakuuttavan vaihtoehdon. Tämä JavaScript‑pohjainen OCR‑moottori on suunniteltu yksinkertaisuuden mielessä, mikä tekee siitä ihanteellisen OCR‑ominaisuuksien upottamiseen suoraan selain‑ tai Node.js‑sovelluksiin. Kirjastossa on useita tärkeitä ominaisuuksia, kuten merkkien tunnistus mallipohjien avulla, kuvan kynnysarvojen asettaminen ja binarisointi, merkkien segmentointi, mallipohjien vertailu ja tekstin kokoaminen, modulaarinen koodipohja‑tuki ja niin edelleen. Se keskittyy painetun tekstin tunnistamiseen mustavalkoisista skannatuista asiakirjoista ja soveltuu parhaiten hyvin muotoiltuun tekstiin, kuten kirjoihin tai lomakkeisiin.

Guten OCR on avoimen lähdekoodin JavaScript OCR‑moottori, jonka on luonut Gutenye. Toisin kuin raskaat OCR‑työkalut, jotka vaativat ulkoisia riippuvuuksia tai laajaa asennusta, Guten OCR on kirjoitettu kokonaan JavaScriptillä, mikä tarkoittaa, että se voi toimia verkkoselaimessa tai palvelimella Node.js:n kanssa. Kirjasto käyttää peruskuvankäsittelytekniikoita merkkien segmentointiin ja niiden tunnistamiseen merkkikuviin perustuvan tunnistusjärjestelmän avulla. Vaikka se ei vielä kilpaile kaupallisten OCR‑moottoreiden, kuten Tesseractin, kanssa monikielisen tai käsinkirjoitetun tekstin tuessa, sen yksinkertaisuus ja muokattavuus tekevät siitä loistavan vaihtoehdon opetusprojekteihin, konseptien todistamiseen tai räätälöityjen web‑sovellusten OCR‑ominaisuuksiin. Toisin kuin Tesseract tai muut suuremmat moottorit, Guten OCR on tarkoituksellisesti kevyt ja keskittynyt – mikä tekee siitä erinomaisen lähtökohdan niille, jotka haluavat ymmärtää, miten OCR toimii sisäisesti.

Yleiskatsaus

Yleiskatsaus Guten OCR:n ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Jäsennä kuvien teksti
Käytä OCR:ää kuviin
Tunnista kuvan teksti
Muunna tekstikuvia
Tunnistettu fonttiteksti
Kuvan esikäsittely
Käytä mallipohjia OCR:ään
Luo OCR‑sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeinen tuki

Guten OCR

Guten OCR tukee alla lueteltuja suosittuja kuvatiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjoittaja

PNG, JPEG, BMP, TIFF

Guten OCR

Alustan riippumattomuus

Guten OCR voi toimia minkä tahansa Java‑pohjaisen ohjelmointikielen kanssa

Java‑ympäristö

Guten OCR

Aloittaminen Guten OCR:n kanssa

Suositeltu tapa asentaa Guten OCR on Brew‑n käyttö. Käytä seuraavaa komentoa sujuvan asennuksen varmistamiseksi

Asenna Guten OCR Brewin kautta

 brew install git-lfs

Asenna Guten OCR GitHubin kautta

 git clone git@github.com:gutenye/ocr.git

Voit myös asentaa sen manuaalisesti; lataa uusimmat julkaisutiedostot suoraan GitHub‑repositoriosta.

Kuvan esikäsittely ennen OCR‑toimintoja

Avoimen lähdekoodin Guten OCR ‑kirjasto on kirjoitettu kokonaan JavaScriptillä, mikä tekee siitä yhteensopivan sekä selaimen että Node.js‑ympäristöjen kanssa. Se sisältää sisäänrakennetut kuvankäsittelytoiminnot, jotka parantavat tunnistuksen tarkkuutta. Se tukee kuvien binarisointia (muuntaa mustavalkoiseksi), kohinan vähentämistä, vinouden korjausta ja muuta. Seuraava esimerkki näyttää, miten kehittäjät voivat soveltaa useita kuvankäsittelyvaiheita ennen OCR‑toiminnon suorittamista kuvissa.

Kuinka soveltaa kuvien esikäsittelyä ennen OCR‑toimintoa JavaScript‑kirjaston avulla?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Merkkien tunnistus mallipohjien avulla

JavaScript‑kirjasto Guten OCR on tarjonnut täydellisen tuen OCR‑toimintojen suorittamiseen mallipohjien avulla JavaScript‑sovelluksissa. Guten OCR:n ytimessä on mallipohjien vertailujärjestelmä. Sen sijaan, että kouluttaisi koneoppimismallin, se käyttää ennalta määritettyjä merkkikuviota. Tämä tekee järjestelmästä nopeamman ja helpommin ymmärrettävän, mutta herkemmän fontti‑ ja asettelukonsistenssille. Tehtävän suorittamiseksi kirjasto renderöi jokaisen merkin (A–Z, a–z, 0–9, jne.) canvas‑elementtiin ja sitten binäärimatriisin jokaiselle merkille tulee referenssimalli. Kun kuvaa analysoidaan, kirjasto vertaa kuvan segmenttejä näihin malleihin löytääkseen parhaan osuman. Se tekee tämän yhdistämällä pystysuoraa ja vaakasuoraa viivaskannausta raja‑alueiden paikantamiseksi.

Merkkien segmentointi OCR‑kirjaston avulla

Avoimen lähdekoodin JavaScript‑kirjasto Guten OCR mahdollistaa ohjelmistokehittäjille merkkien segmentoinnin helposti. Kun kuva on binarisoitu, seuraava vaihe on yksittäisten merkkien segmentointi. Guten OCR skannaa rivejä ja sarakkeita havaitakseen tiheästi mustia pikseleitä sisältäviä alueita, erottaen ne mahdollisiksi merkeiksi. Seuraava esimerkki osoittaa, miten ohjelmistokehittäjät voivat suorittaa merkkien segmentointia JavaScript OCR ‑kirjastolla.

Kuinka suorittaa merkkien segmentointi JavaScript‑kirjaston avulla?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]