API Node.js Saor in Aisce chun Cumais OCR a Chur Leis do Thionscadail JS.
Leabharlann OCR Node.js Foinse Oscailte a Ligeann do Ríomhphrogramóirí Téacs a Aithint & a Bhaintear ó Fhoirmeacha Comhad Ilchineálacha, lena n-áirítear Íomhánna (JPEG, PNG), PDFanna, agus Cáipéisí Saor in Aisce i dTeangacha Iléagsúla.
Cad é Node-Tesseract-OCR?
In aois dhigiteach an lae inniu, tá baint téacs as íomhánna agus cáipéisí tar éis bheith ina thasc ríthábhachtach i ngnóthais éagsúla, lena n-áirítear bainistíocht cháipéisí, próiseáil sonraí, agus intleacht shaorga. Tá teicneolaíocht Aithint Carachtar Optúil (OCR) tar éis a dhéanamh indéanta doiciméid scanáilte, íomhánna, agus PDFanna a thiontú go formáidí téacs inathraithe. Is API foinse oscailte é Node-Tesseract-OCR a chuimsíonn cumhacht innill Tesseract OCR chun bealach gan uaim agus éifeachtach a sholáthar chun tascanna OCR a dhéanamh i bhfeidhmchláir Node.js.
Is umhlóir Node.js é Node-Tesseract-OCR don innill OCR Tesseract, ag ligean do fhorbróirí bogearraí gnéithe cumhachtacha aitheann téacs Tesseract a úsáid laistigh de thimpeallacht Node.js. Coimeádann an API an stór GitHub seo agus cuireann sé raon feidhmeanna ar fáil a fhágann go bhfuil sé oiriúnach do chásanna úsáide éagsúla, ó bhainteacht simplí téacs go tascanna próiseála cáipéisí níos casta. Is féidir le forbróirí bogearraí téacs a bhaint as íomhánna agus cáipéisí i dteangacha éagsúla, rud a fhágann gur uirlis ilúsáideach é do fheidhmchláir éagsúla.
Soláthraíonn an API Node-Tesseract-OCR cumais chunpróiseála íomhánna chun cinn, lena n-áirítear scagadh íomhánna, athmhéidú, agus gearradh, chun a chinntiú go bhfuil an téacs a bhaintear cruinn agus iontaofa. Tacaíonn sé le breis is 100 teanga, rud a fhágann gur réiteach ilúsáideach é do thascanna OCR i dtimpeallachtaí éagsúla. Is féidir le forbróirí bogearraí téacs a bhaint as íomhánna, PDFanna, agus cáipéisí, agus an téacs a bhaintear a thabhairt ar ais i raon formáidí, mar shampla JSON, XML, agus téacs simplí. Tá sé deartha chun a bheith éadrom, solúbtha, agus éasca le húsáid, rud a fhágann gur rogha idéalach é do fhorbróirí a theastaíonn uathu cumais OCR a chur le a dtionscadail. Leis na cumais chunpróiseála íomhánna chun cinn, tacaíocht teanga, agus meicníochtaí láimhseála earráidí, is rogha idéalach é do fhorbróirí a theastaíonn uathu cumais OCR a chur le a dtionscadail.
Ag Tosú le Node-Tesseract-OCR
Is é an bealach molta chun Node-Tesseract-OCR a shuiteáil ná úsáid a bhaint as npm. Úsáid an t-ordú seo a leanas le haghaidh suiteála réidh
Install Node-Tesseract-OCR via npm
npm install node-tesseract-ocr Is féidir é a shuiteáil de láimh freisin; íoslódáil na comhaid eisiúna is déanaí go díreach ó stór GitHub .
Baint Téacs as Íomhánna i API Node.js
Déanann leabharlann foinse oscailte Node-Tesseract-OCR sé éasca do fhorbróirí bogearraí feidhmchláir a chruthú a bhaintear téacs go huathoibríoch as íomhánna laistigh de fheidhmchláir Node.js. Tacaíonn sé le baint téacs as doiciméid scanáilte, PDFanna, grianghraif ceamara nó grianghraif de sholáthairtí. Is féidir é a úsáid chun cartlanna inaistrithe a chruthú, iontráil sonraí a uathoibriú, nó méid mór de cháipéisí a phróiseáil i réimsí mar airgeadas agus cúraim sláinte. Seo sampla simplí a thaispeánann conas téacs a bhaint as íomhánna go cláir i bhfeidhmchláir Node.js.
How to Extract Text from Images inside Node.js Environment?
const tesseract = require("node-tesseract-ocr");
tesseract.recognize("path/to/image.jpg")
.then(text => {
console.log("Recognized Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
Réamhphróiseáil Íomhá Níos Fearr laistigh de Node.js
Is féidir le réamhphróiseáil íomhánna roimh fhorbairt OCR feabhas suntasach a chur ar chruinneas an aitheantais téacs. Ceadaíonn leabharlann foinse oscailte Node-Tesseract-OCR teicnící bunúsacha réamhphróiseála, mar athmhéidú, binárú, agus díshlánú. Is féidir na céimeanna réamhphróiseála seo a chur i bhfeidhm ag baint úsáide as leabharlanna breise Node.js cosúil le sharp nó jimp i gcomhar le Node-Tesseract-OCR. Taispeánann an sampla thíos conas a úsáideann forbróirí bogearraí céimeanna réamhphróiseála chun an t-aithint a fheabhsú, go háirithe le híomhánna le cáilíocht íseal.
How to Apply Preprocessing Steps to Improve Recognition via Node.js API?
const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");
sharp("path/to/input.jpg")
.resize(800, 600) // Resize the image
.greyscale() // Convert to greyscale
.toBuffer()
.then(data => {
return tesseract.recognize(data, { lang: "eng" });
})
.then(text => {
console.log("Preprocessed Image Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
Téacs Aithnithe i Ilteangacha
Ceann de na gnéithe a sheasann amach i Node-Tesseract-OCR ná a thacaíocht fhairsing i ilteangacha. Tacaíonn leabharlann OCR Tesseract le breis is 100 teanga, rud a fhágann gur rogha idéalach í do fheidhmchláir a theastaíonn uathu cáipéisí a phróiseáil i dteangacha éagsúla. Is féidir le forbróirí bogearraí an teanga(í) a shonrú a theastaíonn uathu ó Tesseract, ag feabhsú cruinneas an aitheantais do théacsanna nach bhfuil i mBéarla. Seo sampla a thaispeánann conas is féidir le forbróirí bogearraí téacs a aithint i bhFraincis laistigh de fheidhmchláir Node.js?
How to Recognized Text from Image in French via JavaScript API?
const config = {
lang: "fra", // French language support
oem: 1,
psm: 3
};
tesseract.recognize("path/to/french-text-image.jpg", config)
.then(text => {
console.log("Recognized Text in French:", text);
})
.catch(error => {
console.error("Error:", error.message);
});