1. Produse
  2.   OCR
  3.   Ruby
  4.   Ruby-Tesseract-OCR
 
  

Avansime Gratuime Ruby Biblioteka te śaj te ćhivel pes thaj te lel pes o tèksto katar e imaźură

Jekh angluno putardo źanglipe Ruby OCR API & Image to Text Converter savo del śajsaripen e Software Developer-enqe te ćhiven, te prinʒaren thaj te len avri o tèksto katar e imàge (skanime slike thaj PDF-esqe lilǎ)

Optikano pinźaripen e karakterenqo (OCR) si jekh zurali tèknologia savi del śajsaripen e kompjuterurenqe te prinʒaren thaj te len avri o tèksto katar e patretura vaj katar e skanime dokumentură. Si la but aplikacie, katar o digitaliziribe e printime materijalengo dži ko automatiziribe e procesurengo vash o xramosaripe e datengo. Ki Ruby programiribaski ćhib, jekh popularno biblioteka vaś OCR si Ruby-Tesseract-OCR. Ruby-Tesseract-OCR si Ruby perla savi kerel buti sar phanglipe vash o Tesseract OCR motori. O Tesseract si Open Source OCR motori kerdo kotar o Google thaj si pindžardo vash piri ćaćutnipe thaj čhibjako suporto.

Ruby-Tesseract-OCR źal maj dur katar e bazake OCR śajutnimata thaj del aver funkcije vaś avansime kazura vaś o labăripen. Sar egzàmplo, le softveresqe kerde śaj te specifikuin jekh rig e interesosqi (ROI) anθ-i jekh imàgi te limitisaren i analìza OCR anθ-i jekh specifiko rig. Akava si but lačho kana kerel pes buti e kompleksno dokumentencar ja kana trubul te lel pes numaj o teksto kotar jekh specifično kotor. I biblioteka del but aver funkcie te laćharel pes e OCR śajutnimata, sar te ćhivel pes jekh egzistuime patreto, te lel pes o tèksto katar e patretura vaj katar e skanime dokumentură, te lel pes o HOCR (HTML OCR) avridipen, thaj but aver.

O Ruby-Tesseract-OCR gem del jekh lokho-te-užisarel pes interface te kerel pes interakcija e Tesseract motorosa, so del śajsaripen e Ruby-esqe developerurenqe te integrin e OCR-esqe śajutnimata anθ-e lenqe projèktură bi te avel len pharipe. Te trubul te lel pes informacia katar e fakture, te digitalizisarel pes o printime materiàlo, vaj te automatizil pes e bută vaś o xramosaripen e datengo, i putardi biblioteka del jekh śukar thaj efikasno solucia. Probisar, thaj putar o potencijalo e OCR-esko ande tire Ruby projektura avdive.

Previous Next

Te kezdis e Ruby-Tesseract-OCR

O rekomenduime drom te instalis o Ruby-Tesseract-OCR si te hasnis Rubygems. Mangav tumen te hasnin o śerutno komando vaś jekh śukar instalàcia.

Instalisaren Ruby-Tesseract-OCR prekal Rubygems

gem install tesseract-ocr 

Tu śaj te lel pes i kompilàciaqi khetani bibliotèka katar o Github repozitòrio.

Ikstraktirinen o teksto katar e slike thaj skanime dokumentura prekal o Ruby

Ruby-Tesseract-OCR si jekh but zurali putardi biblioteka savi del śajsaripen e softveresqe developerurenqe te ćhiven thaj te len avri o tèksto katar bute vrjama e imaʒenqe numaj jekh-duj riga Ruby kodolesqe. I biblioteka kerel te avel lokho te lel pes o teksto katar e patretura, PDFS vaj skanime dokumentura. O tipično butjako drom si te čhivel pes jekh tasvir, te konfigurinel pes o OCR paramètrura, thaj te akharel pes o OCR motoro te pindžarel o tèksto. Te avel jekh suksesoski operacia le developerura trubun te den o drom karing o image so kamen te procesuin thaj te akharen e text_for metoda te len avri o teksto. Po agor, o rezultato ka ovel printisardo ki konzola. I biblioteka del bute Fkonfiguraciaqe opcie vaś te kontrolisarel o OCR-esqo phiripen, sar so si o modo e segmentàciaqo e rigăqo, e karakterură anθ-i parni lista, thaj maj but. E egzàmplură save aven sikaven sar e softveresqe kerde śaj te thoven jekh JPEG-esqo lil thaj te len avri o tèksto andar le Ruby aplikacie.

Sar te lel pes o tèksto katar e imaźură labǎrindoj e Ruby-esqe komande?
require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

Xramosar o Teksto katar jekh Partikularno Image Area prekal o Ruby

I putardi Ruby-Tesseract-OCR biblioteka źal maj dur katar e bazake OCR śajutnimata thaj del aver funkcije vaś avansime kazura vaś o labăripen. Sar egzàmplo, le uźitorǎ śaj te specifikisaren jekh rig e interesosqi (ROI) anθ-i jekh imàgi te limitisaren i OCR analìza anθ-i jekh specifiko rig. Akava si but lačho kana kerel pes buti e kompleksne dokumenturenca ja kana e uźitorǎ trubun te len avri o tèksto katar jekh specifiko kotor. Paše odova, i biblioteka del metode te ovel HOCR (HTML OCR) rezultato, savo na numaj inkludil o pindžardo teksto numaj vi informacie pal-o aranźmanto thaj koordinàte e tekstosqe elementurenqe. O HOCR-esqo avridipen si laćho kana trubul tut maj but granularno dàte vaj kana kames te keres maj but analìza pe tekstosqi struktura.

Sar te kerel pes o hOCR pe jekh Image prekal i Ruby Library?
require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')
 Română