1. Tuotteet
  2.   OCR
  3.   Ruby
  4.   Ruby-Tesseract-OCR
 
  

Kehittynyt ilmainen Ruby Library tekstin lataamiseen ja poimimiseen kuvista

Johtava avoimen lähdekoodin Ruby OCR API & Image to Text Converter, jonka avulla ohjelmistokehittäjät voivat ladata, tunnistaa ja poimia tekstiä kuvista (skannatut kuvat ja PDF-tiedostot)

Optinen merkintunnistus (OCR) on tehokas tekniikka, jonka avulla tietokoneet voivat tunnistaa ja poimia tekstiä kuvista tai skannatuista asiakirjoista. Sillä on lukuisia sovelluksia painettujen materiaalien digitoinnista tiedonsyöttöprosessien automatisointiin. Ruby-ohjelmointikielessä yksi suosittu tekstintunnistuskirjasto on Ruby-Tesseract-OCR. Ruby-Tesseract-OCR on Ruby-helmi, joka toimii Tesseract OCR -moottorin kääreenä. Tesseract on Googlen kehittämä avoimen lähdekoodin OCR-moottori, joka tunnetaan tarkkuudestaan ja kielituestaan.

Ruby-Tesseract-OCR ylittää perus OCR-ominaisuudet ja tarjoaa lisäominaisuuksia edistyneisiin käyttötapauksiin. Ohjelmistokehittäjät voivat esimerkiksi määrittää kuvan sisällä kiinnostavan alueen (ROI) rajoittaakseen OCR-analyysin tiettyyn alueeseen. Tämä on erityisen hyödyllistä käsiteltäessä monimutkaisia asiakirjoja tai kun sinun tarvitsee vain poimia tekstiä tietystä osiosta. Kirjasto tarjoaa useita lisäominaisuuksia OCR-ominaisuuksien parantamiseksi, kuten olemassa olevan kuvan lataaminen, tekstin poimiminen kuvista tai skannatuista asiakirjoista, HOCR (HTML OCR) -tulosteen hankkiminen ja paljon muuta.

Ruby-Tesseract-OCR-helmi tarjoaa helppokäyttöisen käyttöliittymän vuorovaikutukseen Tesseract-moottorin kanssa, minkä ansiosta Ruby-kehittäjät voivat integroida OCR-ominaisuudet projekteihinsa vaivattomasti. Avoimen lähdekoodin kirjasto tarjoaa luotettavan ja tehokkaan ratkaisun, halusitpa sitten poimia tietoja laskuista, digitoida painettuja materiaaleja tai automatisoida tiedonsyöttötehtäviä. Kokeile ja hyödynnä OCR:n mahdollisuudet Ruby-projekteissasi jo tänään.

Previous Next

Ruby-Tesseract-OCR:n käytön aloittaminen

Suositeltava tapa asentaa Ruby-Tesseract-OCR on Rubygemsin käyttö. Käytä seuraavaa komentoa sujuvaan asennukseen.

Asenna Ruby-Tesseract-OCR Rubygemsin kautta

gem install tesseract-ocr 

Voit ladata kootun jaetun kirjaston Githubin-arkistosta.

Poista tekstiä kuvista ja skannatuista asiakirjoista Rubyn kautta

Ruby-Tesseract-OCR on erittäin tehokas avoimen lähdekoodin kirjasto, jonka avulla ohjelmistokehittäjät voivat ladata ja poimia tekstiä erityyppisistä kuvista vain muutamalla Ruby-koodirivillä. Kirjaston avulla on helppo poimia tekstiä kuvista, PDF-tiedostoista tai skannatuista asiakirjoista. Tyypilliseen työnkulkuun kuuluu kuvan lataaminen, OCR-parametrien määrittäminen ja OCR-moottorin kutsuminen tekstin tunnistamiseen. Onnistuneen toiminnan varmistamiseksi kehittäjien on annettava polku kuvaan, jonka he haluavat käsitellä, ja kutsuttava text_for-menetelmä poimiakseen tekstin. Lopuksi tulos tulostetaan konsoliin. Kirjasto tarjoaa erilaisia Fconfiguration-vaihtoehtoja OCR-toiminnan ohjaamiseen, kuten sivun segmentointitila, sallittujen luettelon merkit ja paljon muuta. Seuraavat esimerkit osoittavat, kuinka ohjelmistokehittäjät voivat ladata JPEG-kuvan ja poimia siitä tekstiä Ruby-sovelluksissa.

Kuinka poimitaan tekstiä kuvista Ruby-komentojen avulla?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

Tekstin poistaminen tietystä kuva-alueesta Rubyn avulla

Avoimen lähdekoodin Ruby-Tesseract-OCR-kirjasto ylittää perus OCR-ominaisuudet ja tarjoaa lisäominaisuuksia edistyneisiin käyttötapauksiin. Käyttäjät voivat esimerkiksi määrittää kuvan sisällä kiinnostavan alueen (ROI) rajoittaakseen OCR-analyysin tiettyyn alueeseen. Tämä on erityisen hyödyllistä käsiteltäessä monimutkaisia asiakirjoja tai kun käyttäjien tarvitsee vain poimia tekstiä tietystä osiosta. Lisäksi kirjasto tarjoaa menetelmiä HOCR (HTML OCR) -tulosteen saamiseksi, joka sisältää tunnistetun tekstin lisäksi myös tietoa tekstielementtien asettelusta ja koordinaateista. HOCR-tulostus on hyödyllinen, kun tarvitset tarkempaa tietoa tai haluat suorittaa tekstirakenteen lisäanalyysiä.

Kuinka hOCR suoritetaan kuvalle Ruby Libraryn kautta?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')
 Suomen