1. Táirgí
  2.   OCR
  3.   Ruby
  4.   Ruby-Tesseract-OCR
 
  

Ardleabharlann Ruby In Aisce chun Téacs a Luchtú agus a Bhaint as Íomhánna

Príomhfhoinse Oscailte Ruby OCR API & Tiontaire Íomhá go Téacs a ligeann d’fhorbróirí Bogearraí Téacs a Luchtú, a Aithint agus a Bhaint as Íomhánna (íomhánna scanta & comhaid PDF)

Is teicneolaíocht chumhachtach é Aithint Optúil Carachtair (OCR) a chuireann ar chumas ríomhairí téacs a aithint agus a bhaint as íomhánna nó doiciméid scanta. Tá go leor feidhmchlár aige, ó dhigitiú ábhair chlóite go próisis iontrála sonraí a uathoibriú. I dteanga ríomhchlárúcháin Ruby, is leabharlann amháin a bhfuil an-tóir uirthi le haghaidh OCR ná Ruby-Tesseract-OCR. Is gem Ruby é Ruby-Tesseract-OCR a fheidhmíonn mar fhillteán don inneall Tesseract OCR. Inneall Foinse Oscailte OCR é Tesseract arna fhorbairt ag Google agus a bhfuil cáil air as cruinneas agus tacaíocht teanga.

Téann Ruby-Tesseract-OCR thar bhunchumais OCR agus cuireann sé gnéithe breise ar fáil do chásanna ardúsáide. Mar shampla, is féidir le forbróirí bogearraí réigiún spéise (ROI) a shonrú laistigh d'íomhá chun an anailís OCR a theorannú go limistéar ar leith. Tá sé seo thar a bheith úsáideach agus tú ag déileáil le doiciméid chasta nó nuair nach gá duit ach téacs a bhaint as rannóg ar leith. Soláthraíonn an leabharlann roinnt gnéithe breise chun cumais OCR a fheabhsú, mar shampla íomhá atá ann cheana a lódáil, téacs a bhaint as íomhánna nó doiciméid scanta, aschur HOCR (HTML OCR) a fháil, agus go leor eile.

Soláthraíonn an tseam Ruby-Tesseract-OCR comhéadan atá éasca le húsáid chun idirghníomhú leis an inneall Tesseract, rud a chuireann ar chumas forbróirí Ruby cumais OCR a chomhtháthú ina dtionscadail gan stró. Cibé an gá duit faisnéis a bhaint as sonraisc, ábhair chlóite a dhigitiú, nó tascanna iontrála sonraí a uathoibriú, soláthraíonn an leabharlann foinse oscailte réiteach iontaofa agus éifeachtach. Bain triail as, agus díghlasáil acmhainneacht OCR i do thionscadail Ruby inniu.

Previous Next

Tús le Ruby-Tesseract-OCR

Is é an bealach molta chun Ruby-Tesseract-OCR a shuiteáil ná Rubygems a úsáid. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.

Suiteáil Ruby-Tesseract-OCR trí Rubygems

gem install tesseract-ocr 

Is féidir leat an leabharlann chomhroinnte tiomsaithe a íoslódáil ó Github stór.

Sliocht Téacs ó Íomhánna & Doiciméid Scanta trí Ruby

Is leabharlann foinse oscailte an-chumhachtach í Ruby-Tesseract-OCR a ligeann d’fhorbróirí bogearraí téacs a lódáil agus a bhaint as cineálacha éagsúla íomhánna gan ach cúpla líne de chód Ruby. Éascaíonn an leabharlann téacs a bhaint as íomhánna, PDFS nó doiciméid scanta. Is éard atá i gceist leis an sreabhadh oibre tipiciúil ná íomhá a luchtú, paraiméadair OCR a chumrú, agus an t-inneall OCR a agairt chun an téacs a aithint. Le haghaidh oibríocht rathúil ní mór d'fhorbróirí an cosán chuig an íomhá a theastaíonn uathu a phróiseáil a sholáthar agus glaoch ar an modh text_for chun an téacs a bhaint amach. Ar deireadh, déanfar an toradh a phriontáil ar an consól. Cuireann an leabharlann roghanna éagsúla Fconfiguration ar fáil chun iompar OCR a rialú, mar mhodh deighilte leathanaigh, carachtair bánliosta, agus go leor eile. Léiríonn na samplaí seo a leanas conas is féidir le forbróirí bogearraí íomhá JPEG a luchtú agus téacs a bhaint aisti taobh istigh d’fheidhmchláir Ruby.

Conas Téacs a Bhaint as Íomhánna le Orduithe Ruby?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

Sliocht Téacs as Réimse Íomhá ar leith trí Ruby

Téann leabharlann foinse oscailte Ruby-Tesseract-OCR thar chumais bhunúsacha OCR agus tairgeann sí gnéithe breise do chásanna ardúsáide. Mar shampla, is féidir le húsáideoirí réigiún spéise (ROI) a shonrú laistigh d’íomhá chun an anailís OCR a theorannú go limistéar ar leith. Tá sé seo úsáideach go háirithe agus iad ag déileáil le doiciméid chasta nó nuair nach gá d’úsáideoirí ach téacs a bhaint as rannóg ar leith. Ina theannta sin, cuireann an leabharlann modhanna ar fáil chun aschur HOCR (HTML OCR) a fháil, a chuimsíonn ní amháin an téacs aitheanta ach freisin faisnéis faoi leagan amach agus comhordanáidí na ngnéithe téacs. Tá aschur HOCR cabhrach nuair a bhíonn níos mó sonraí gráinneach uait nó nuair a theastaíonn uait tuilleadh anailíse a dhéanamh ar struchtúr an téacs.

Conas hOCR a dhéanamh ar Íomhá trí Leabharlann Ruby?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')
 Gaeilge