Ardleabharlann Ruby In Aisce chun Téacs a Luchtú agus a Bhaint as Íomhánna
Príomhfhoinse Oscailte Ruby OCR API & Tiontaire Íomhá go Téacs a ligeann d’fhorbróirí Bogearraí Téacs a Luchtú, a Aithint agus a Bhaint as Íomhánna (íomhánna scanta & comhaid PDF)
Is teicneolaíocht chumhachtach é Aithint Optúil Carachtair (OCR) a chuireann ar chumas ríomhairí téacs a aithint agus a bhaint as íomhánna nó doiciméid scanta. Tá go leor feidhmchlár aige, ó dhigitiú ábhair chlóite go próisis iontrála sonraí a uathoibriú. I dteanga ríomhchlárúcháin Ruby, is leabharlann amháin a bhfuil an-tóir uirthi le haghaidh OCR ná Ruby-Tesseract-OCR. Is gem Ruby é Ruby-Tesseract-OCR a fheidhmíonn mar fhillteán don inneall Tesseract OCR. Inneall Foinse Oscailte OCR é Tesseract arna fhorbairt ag Google agus a bhfuil cáil air as cruinneas agus tacaíocht teanga.
Téann Ruby-Tesseract-OCR thar bhunchumais OCR agus cuireann sé gnéithe breise ar fáil do chásanna ardúsáide. Mar shampla, is féidir le forbróirí bogearraí réigiún spéise (ROI) a shonrú laistigh d'íomhá chun an anailís OCR a theorannú go limistéar ar leith. Tá sé seo thar a bheith úsáideach agus tú ag déileáil le doiciméid chasta nó nuair nach gá duit ach téacs a bhaint as rannóg ar leith. Soláthraíonn an leabharlann roinnt gnéithe breise chun cumais OCR a fheabhsú, mar shampla íomhá atá ann cheana a lódáil, téacs a bhaint as íomhánna nó doiciméid scanta, aschur HOCR (HTML OCR) a fháil, agus go leor eile.
Soláthraíonn an tseam Ruby-Tesseract-OCR comhéadan atá éasca le húsáid chun idirghníomhú leis an inneall Tesseract, rud a chuireann ar chumas forbróirí Ruby cumais OCR a chomhtháthú ina dtionscadail gan stró. Cibé an gá duit faisnéis a bhaint as sonraisc, ábhair chlóite a dhigitiú, nó tascanna iontrála sonraí a uathoibriú, soláthraíonn an leabharlann foinse oscailte réiteach iontaofa agus éifeachtach. Bain triail as, agus díghlasáil acmhainneacht OCR i do thionscadail Ruby inniu.
Tús le Ruby-Tesseract-OCR
Is é an bealach molta chun Ruby-Tesseract-OCR a shuiteáil ná Rubygems a úsáid. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.
Suiteáil Ruby-Tesseract-OCR trí Rubygems
gem install tesseract-ocr
Is féidir leat an leabharlann chomhroinnte tiomsaithe a íoslódáil ó Github stór.
Sliocht Téacs ó Íomhánna & Doiciméid Scanta trí Ruby
Is leabharlann foinse oscailte an-chumhachtach í Ruby-Tesseract-OCR a ligeann d’fhorbróirí bogearraí téacs a lódáil agus a bhaint as cineálacha éagsúla íomhánna gan ach cúpla líne de chód Ruby. Éascaíonn an leabharlann téacs a bhaint as íomhánna, PDFS nó doiciméid scanta. Is éard atá i gceist leis an sreabhadh oibre tipiciúil ná íomhá a luchtú, paraiméadair OCR a chumrú, agus an t-inneall OCR a agairt chun an téacs a aithint. Le haghaidh oibríocht rathúil ní mór d'fhorbróirí an cosán chuig an íomhá a theastaíonn uathu a phróiseáil a sholáthar agus glaoch ar an modh text_for chun an téacs a bhaint amach. Ar deireadh, déanfar an toradh a phriontáil ar an consól. Cuireann an leabharlann roghanna éagsúla Fconfiguration ar fáil chun iompar OCR a rialú, mar mhodh deighilte leathanaigh, carachtair bánliosta, agus go leor eile. Léiríonn na samplaí seo a leanas conas is féidir le forbróirí bogearraí íomhá JPEG a luchtú agus téacs a bhaint aisti taobh istigh d’fheidhmchláir Ruby.
Conas Téacs a Bhaint as Íomhánna le Orduithe Ruby?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Sliocht Téacs as Réimse Íomhá ar leith trí Ruby
Téann leabharlann foinse oscailte Ruby-Tesseract-OCR thar chumais bhunúsacha OCR agus tairgeann sí gnéithe breise do chásanna ardúsáide. Mar shampla, is féidir le húsáideoirí réigiún spéise (ROI) a shonrú laistigh d’íomhá chun an anailís OCR a theorannú go limistéar ar leith. Tá sé seo úsáideach go háirithe agus iad ag déileáil le doiciméid chasta nó nuair nach gá d’úsáideoirí ach téacs a bhaint as rannóg ar leith. Ina theannta sin, cuireann an leabharlann modhanna ar fáil chun aschur HOCR (HTML OCR) a fháil, a chuimsíonn ní amháin an téacs aitheanta ach freisin faisnéis faoi leagan amach agus comhordanáidí na ngnéithe téacs. Tá aschur HOCR cabhrach nuair a bhíonn níos mó sonraí gráinneach uait nó nuair a theastaíonn uait tuilleadh anailíse a dhéanamh ar struchtúr an téacs.
Conas hOCR a dhéanamh ar Íomhá trí Leabharlann Ruby?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')