1. Táirgí
  2.   OCR
  3.   JavaScript
  4.   Tesseract.js
 
  

Open Source JavaScript API chun OCR a Chur le hAipeanna Gréasáin agus a Bhainistiú

Príomhleabharlann JavaScript Saor in Aisce chun feidhmiúlacht Aithint Optúil Carachtair (OCR) a Chur le Feidhmchláir Ghréasáin JS & Íomhánna de théacs Clóbhuailte nó Lámhscríofa a Athrú go Téacs atá inléite ag Meaisín saor in aisce.

Is leabharlann foinse oscailte an-úsáideach í Tesseract.js a chuireann ar chumas forbróirí bogearraí feidhmiúlacht aitheantais optúla carachtar (OCR) a chomhtháthú laistigh dá bhfeidhmchláir gréasáin gan mórán iarrachta agus costais. Is éard atá i OCR ná an próiseas chun íomhánna de théacs clóite nó lámhscríofa a thiontú go téacs meaisín-inléite. Is calafort é Tesseract.js den inneall móréilimh Tesseract OCR, a d’fhorbair Hewlett-Packard ar dtús sna 1980í agus a chothaigh Google níos déanaí. Is féidir le Tesseract.js níos mó ná 100 teanga a aithint, rud a fhágann gur uirlis chumhachtach í d'fhorbróirí atá ag iarraidh feidhmiúlacht OCR a chur lena bhfeidhmchláir ghréasáin.

Tá Tesseract.js an-éasca le láimhseáil agus is féidir é a úsáid le haghaidh tascanna éagsúla, mar shampla téacs a bhaint as doiciméid scanta, admhálacha agus cártaí gnó, tascanna iontrála sonraí a uathoibriú chomh maith le feidhmiúlacht chuardaigh laistigh d’fheidhmchláir ghréasáin a fheabhsú. Ceann de na príomhbhuntáistí a bhaineann le Tesseract.js ná a chumas téacs a aithint fiú nuair atá an íomhá ionchuir ar droch-chaighdeán nó ar thaifeach. Úsáideann an leabharlann halgartaim meaisínfhoghlama chun cruinneas torthaí OCR a fheabhsú. Is féidir leis freisin anailís ar leagan amach na leathanach a dhéanamh agus réigiúin spéise laistigh d'íomhá a bhrath.

Tá tóir ar Tesseract.js mar gheall ar a éasca le húsáid chomh maith le cumais chumhachtacha OCR agus is féidir é a rith go réidh i mbrabhsálaí nó ar fhreastalaí le NodeJS. Soláthraíonn sé API simplí a ligeann d'fhorbróirí bogearraí roghanna OCR a chumrú cosúil le teanga, modh deighilte leathanaigh, agus carachtair bánliosta. Is uirlis luachmhar é do raon leathan feidhmchlár agus rogha iontach d’fhorbróirí atá ag iarraidh OCR a chur lena bhfeidhmchláir ghréasáin a aithint toisc go bhfuil sé ar a gcumas téacs a aithint ó íomhánna droch-chaighdeán agus tacaíocht a thabhairt d’iltheangacha.

Previous Next

Ag Tús a chur le Tesseract.js

Is é an bealach molta chun Tesseract.js a shuiteáil ná npm a úsáid. Úsáid an t-ordú seo a leanas chun suiteáil mhín a dhéanamh

Suiteáil Tesseract.jsvia npm

 npm install tesseract.js

Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisithe is déanaí go díreach ó GitHub stór.

Tiontaigh an Íomhá go Téacs trí JavaScript API

Déanann leabharlann foinse oscailte JavaScript Tesseract.js éascaíocht d’fhorbróirí bogearraí oibriú le cineálacha éagsúla íomhánna ar nós BMP, JPG, PNG, PBM, WebP agus go leor eile. Tacaíonn an leabharlann le téacs a bhaint as íomhánna chun próiseáil téacsanna ar íomhánna, PDFanna agus doiciméid scanta a uathoibriú. Léiríonn an sampla seo a leanas conas íomhá a luchtú agus téacs a bhaintear aisti gan ach cúpla líne de chód. Úsáidtear an argóint teanga chun na sonraí teanga oilte a úsáidfear chun íomhánna a phróiseáil a chinneadh. Is féidir le forbróirí bogearraí iliomad teangacha a úsáid anseo.

Conas Íomhá a Thiontú go Téacs ag úsáid JavaScript API?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Léigh Réigiún Íomhá & Bain Téacs trí JS API

Tá gnéithe an-úsáideacha san áireamh sa leabharlann JavaScript foinse oscailte chun limistéar ar leith laistigh d’íomhá a léamh agus a sonraí a ghabháil laistigh d’fheidhmchláir JavaScript. Tacaíonn an API leis an limistéar íomhá a ghabháil agus déanann sé iarracht téacs a aithint laistigh den réigiún seo ag baint úsáide as an inneall OCR cumhachtach inmheánach. Léiríonn na samplaí seo a leanas conas is féidir le forbróirí bogearraí URL a sholáthar don íomhá agus is féidir leis an API téacs a bhrath agus a aithint go héasca sa limistéar roghnaithe.

Léigh agus Aithnigh Téacs i Réigiún Roghnaithe d'Íomhá trí JS API

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();
 Gaeilge