Leabharlann JavaScript Saor chun Téacs a Pharsáil ó Íomhánna agus ó Chórais Scanáilte

Leabharlann JavaScript OCR (Aithint Carachtar Optúil) foinse oscailte chun Téacs a Pharsáil ó Íomhánna agus Cáipéisí Scanáilte Dubh‑Bán le Tacaíocht Réamhphróiseáil Íomhánna agus Teimpléid i Feidhmchláir Gréasáin nó Node.js.

Sa domhan digiteach nua‑aimseartha, tá ról ríthábhachtach ag teicneolaíocht aithint carachtar optúil (OCR) maidir le híomhánna scanáilte, nótaí láimhe, nó cáipéisí clóite a thiontú go sonraí inathraithe agus inathbhreathnaithe. D’fhorbróirí JavaScript atá ag lorg réiteach éadrom agus foinse oscailte, cuireann Guten OCR rogha spreagúil ar fáil. Tá an tinnse OCR bunaithe ar JavaScript deartha le simplíocht i gcuimhne, rud a fhágann go bhfuil sé foirfe chun gnéithe OCR a leabú go díreach i bhfeidhmchláir brabhsálaí nó Node.js. Tá roinnt gnéithe tábhachtacha mar chuid den leabharlann, mar shampla aithint carachtar trí theimpléid, tairseachú íomhá agus binárú, deighilt carachtar, meaitseáil teimpléid agus tógáil téacs, tacaíocht bunachar cód modúlach, srl. Dírithe sé ar aithint téacs clóite ó cháipéisí scanáilte dubh‑bán agus oireann sé go hiondúil do théacs dea‑fhormáite, mar leabhair nó foirmeacha.

Is innill OCR JavaScript foinse oscailte é Guten OCR a chruthaigh Gutenye. Níos mó ná uirlisí OCR tromchúiseacha a éilíonn spleáchais sheachtracha nó socrú fairsing, tá Guten OCR scríofa go hiomlán i JavaScript, rud a chiallaíonn gur féidir é a rith i mbrabhsálaí gréasáin nó ar an bhfreastalaí le Node.js. Úsáideann an leabharlann teicnící bunúsacha próiseála íomhánna chun carachtair a dheighilt agus iad a aithint trí chóras aithint patrúin carachtar. Cé nach gcomórtasann sé fós le hinnill OCR tráchtála mar Tesseract i dtacaíocht le téacs ilteangach nó láimhe, tá a shimplíocht agus a inrochtaineacht ina rogha iontach do thionscnaimh oideachais, cruthúnas‑coincheap, nó gnéithe OCR leabaithe i bhfeidhmchláir gréasáin saincheaptha. Níos mó ná Tesseract nó innill níos mó eile, tá Guten OCR éadrom de dhearcadh agus dírithe go sonrach—ag déanamh de bhunphointe den scoth do dhaoine a theastaíonn a thuiscint conas a oibríonn OCR faoi bhun.

Ag an Léargas

Forbhreathnú ar ghnéithe Guten OCR.

Forbhreathnú ar Gnéithe

Parsaigh Téacs Íomhánna
Cuir OCR i bhfeidhm ar Íomhánna
Aithin téacs íomhá
Tiontaigh íomhánna téacs
Téacs Cló Aithnithe
Réamhphróiseáil Íomhá
Úsáid Teimpléid le haghaidh OCR
Cruthaigh aipeanna OCR
Sábháil go dtí an brabhsálaí
Bain amach Téacs
Tacaíocht Il‑níochán

Guten OCR

Tacaíonn Guten OCR le formáidí comhad íomhá coitianta a liostáil thíos.

Léitheoir

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scríbhneoir

PNG, JPEG, BMP, TIFF

Guten OCR

Neamhspleáchas Ardáin

Is féidir le Guten OCR oibriú le haon teanga cláir bhunaithe ar Java

Rith‑am Java

Guten OCR

Tosú le Guten OCR

Is é an bealach molta chun Guten OCR a shuiteáil ná úsáid a bhaint as Brew. Úsáid an t‑ordú seo a leanas le suiteáil réidh

Instalaigh Guten OCR trí Brew

 brew install git-lfs

Instalaigh Guten OCR trí GitHub

 git clone git@github.com:gutenye/ocr.git

Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisiúna is déanaí go díreach ó GitHub stóras.

Réamhphróiseáil Íomhá Roimh Oibríochtaí OCR

Tá leabharlann OCR foinse oscailte Guten scríofa go hiomlán i JavaScript, rud a fhágann go bhfuil sé comhoiriúnach le timpeallachtaí brabhsálaí agus Node.js araon. Cuimsíonn sé feidhmeanna réamhphróiseála íomhá tógtha isteach chun cruinneas na haithint a fheabhsú. Tacaíonn sé le Binárú íomhá (ag iompú go dubh‑bán), laghdú torainn, ceartú claonta agus níos mó. Taispeánann an sampla thíos conas is féidir le forbróirí céimeanna iolracha réamhphróiseála íomhá a chur i bhfeidhm roimh oibríocht OCR a dhéanamh ar íomhánna.

Conas Réamhphróiseáil Íomhá a chur i bhfeidhm roimh Oibríocht OCR trí Leabharlann JavaScript?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Aithint Carachtar trí Theimpléid

Tá an leabharlann JavaScript Guten OCR tar éis tacaíocht iomlán a sholáthar le haghaidh oibríochtaí OCR a dhéanamh ag baint úsáide as teimpléid laistigh de fheidhmchláir JavaScript. Sa lár de Guten OCR tá córas meaitseála teimpléid. Seachas samhail foghlama meaisín a thraenáil, úsáideann sé patrúin carachtar réamhshainithe. Cuireann sé sin ar chumas an chórais a bheith níos tapúla agus níos éasca le tuiscint ach níos íogaire do chomhshó cló agus leagan amach. Chun an tasc seo a chur i bhfeidhm, rindreann an leabharlann gach carachtar (A–Z, a–z, 0–9, srl.) i chanbhás agus ansin éiríonn maitrís dhénártha do gach carachtar mar theimpléad tagartha. Nuair a dhéantar íomhá a anailísiú, déanann an leabharlann comparáid idir deicimintí íomhá agus na teimpléid seo chun an meaitseáil is fearr a aimsiú. Déanann sé é seo ag baint úsáide as meascán de scanadh líne ingearach agus cothrománach chun boscaí teorann a aimsiú.

Deighilt Carachtar trí Leabharlann OCR

Cuireann an leabharlann JavaScript foinse oscailte Guten OCR ar chumas forbróirí bogearraí deighilt carachtar a dhéanamh go héasca. Nuair a bhíonn an íomhá bináraithe, is é an chéad chéim eile deighilt na gcarachtar aonair. Scanann Guten OCR róna agus colúin chun réigiúin le picteilíní dubha dlúth a bhrath, agus iad a scaradh i gcarachtair féideartha. Taispeánann an sampla thíos conas is féidir le forbróirí bogearraí deighilt carachtar a dhéanamh ag baint úsáide as leabharlann OCR JavaScript.

Conas Deighilt Carachtar a Dhéanamh ag Baint Úsáide as Leabharlann JavaScript?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]