Avansime Gratuime Ruby Biblioteka te śaj te ćhivel pes thaj te lel pes o tèksto katar e imaźură
Jekh angluno putardo źanglipe Ruby OCR API & Image to Text Converter savo del śajsaripen e Software Developer-enqe te ćhiven, te prinʒaren thaj te len avri o tèksto katar e imàge (skanime slike thaj PDF-esqe lilǎ)
Optikano pinźaripen e karakterenqo (OCR) si jekh zurali tèknologia savi del śajsaripen e kompjuterurenqe te prinʒaren thaj te len avri o tèksto katar e patretura vaj katar e skanime dokumentură. Si la but aplikacie, katar o digitaliziribe e printime materijalengo dži ko automatiziribe e procesurengo vash o xramosaripe e datengo. Ki Ruby programiribaski ćhib, jekh popularno biblioteka vaś OCR si Ruby-Tesseract-OCR. Ruby-Tesseract-OCR si Ruby perla savi kerel buti sar phanglipe vash o Tesseract OCR motori. O Tesseract si Open Source OCR motori kerdo kotar o Google thaj si pindžardo vash piri ćaćutnipe thaj čhibjako suporto.
Ruby-Tesseract-OCR źal maj dur katar e bazake OCR śajutnimata thaj del aver funkcije vaś avansime kazura vaś o labăripen. Sar egzàmplo, le softveresqe kerde śaj te specifikuin jekh rig e interesosqi (ROI) anθ-i jekh imàgi te limitisaren i analìza OCR anθ-i jekh specifiko rig. Akava si but lačho kana kerel pes buti e kompleksno dokumentencar ja kana trubul te lel pes numaj o teksto kotar jekh specifično kotor. I biblioteka del but aver funkcie te laćharel pes e OCR śajutnimata, sar te ćhivel pes jekh egzistuime patreto, te lel pes o tèksto katar e patretura vaj katar e skanime dokumentură, te lel pes o HOCR (HTML OCR) avridipen, thaj but aver.
O Ruby-Tesseract-OCR gem del jekh lokho-te-užisarel pes interface te kerel pes interakcija e Tesseract motorosa, so del śajsaripen e Ruby-esqe developerurenqe te integrin e OCR-esqe śajutnimata anθ-e lenqe projèktură bi te avel len pharipe. Te trubul te lel pes informacia katar e fakture, te digitalizisarel pes o printime materiàlo, vaj te automatizil pes e bută vaś o xramosaripen e datengo, i putardi biblioteka del jekh śukar thaj efikasno solucia. Probisar, thaj putar o potencijalo e OCR-esko ande tire Ruby projektura avdive.
Te kezdis e Ruby-Tesseract-OCR
O rekomenduime drom te instalis o Ruby-Tesseract-OCR si te hasnis Rubygems. Mangav tumen te hasnin o śerutno komando vaś jekh śukar instalàcia.
Instalisaren Ruby-Tesseract-OCR prekal Rubygems
gem install tesseract-ocr
Tu śaj te lel pes i kompilàciaqi khetani bibliotèka katar o Github repozitòrio.
Ikstraktirinen o teksto katar e slike thaj skanime dokumentura prekal o Ruby
Ruby-Tesseract-OCR si jekh but zurali putardi biblioteka savi del śajsaripen e softveresqe developerurenqe te ćhiven thaj te len avri o tèksto katar bute vrjama e imaʒenqe numaj jekh-duj riga Ruby kodolesqe. I biblioteka kerel te avel lokho te lel pes o teksto katar e patretura, PDFS vaj skanime dokumentura. O tipično butjako drom si te čhivel pes jekh tasvir, te konfigurinel pes o OCR paramètrura, thaj te akharel pes o OCR motoro te pindžarel o tèksto. Te avel jekh suksesoski operacia le developerura trubun te den o drom karing o image so kamen te procesuin thaj te akharen e text_for metoda te len avri o teksto. Po agor, o rezultato ka ovel printisardo ki konzola. I biblioteka del bute Fkonfiguraciaqe opcie vaś te kontrolisarel o OCR-esqo phiripen, sar so si o modo e segmentàciaqo e rigăqo, e karakterură anθ-i parni lista, thaj maj but. E egzàmplură save aven sikaven sar e softveresqe kerde śaj te thoven jekh JPEG-esqo lil thaj te len avri o tèksto andar le Ruby aplikacie.
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Xramosar o Teksto katar jekh Partikularno Image Area prekal o Ruby
I putardi Ruby-Tesseract-OCR biblioteka źal maj dur katar e bazake OCR śajutnimata thaj del aver funkcije vaś avansime kazura vaś o labăripen. Sar egzàmplo, le uźitorǎ śaj te specifikisaren jekh rig e interesosqi (ROI) anθ-i jekh imàgi te limitisaren i OCR analìza anθ-i jekh specifiko rig. Akava si but lačho kana kerel pes buti e kompleksne dokumenturenca ja kana e uźitorǎ trubun te len avri o tèksto katar jekh specifiko kotor. Paše odova, i biblioteka del metode te ovel HOCR (HTML OCR) rezultato, savo na numaj inkludil o pindžardo teksto numaj vi informacie pal-o aranźmanto thaj koordinàte e tekstosqe elementurenqe. O HOCR-esqo avridipen si laćho kana trubul tut maj but granularno dàte vaj kana kames te keres maj but analìza pe tekstosqi struktura.
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')