Şəkillərdən mətni yükləmək və çıxarmaq üçün təkmil Pulsuz Ruby Kitabxanası
Proqram Tərtibatçılarına Şəkillərdən (skan edilmiş şəkillər və PDF faylları) mətni yükləməyə, tanımağa və çıxarmağa imkan verən aparıcı Açıq Mənbə Ruby OCR API və Şəkildən Mətnə Çevirici
Optik xarakter tanınması (OCR) kompüterlərə şəkillər və ya skan edilmiş sənədlərdən mətni tanımağa və çıxarmağa imkan verən güclü texnologiyadır. Onun çap materiallarının rəqəmsallaşdırılmasından tutmuş məlumatların daxil edilməsi proseslərinin avtomatlaşdırılmasına qədər çoxsaylı tətbiqləri var. Ruby proqramlaşdırma dilində OCR üçün məşhur kitabxanalardan biri Ruby-Tesseract-OCR-dir. Ruby-Tesseract-OCR, Tesseract OCR mühərriki üçün sarğı kimi xidmət edən Ruby daşdır. Tesseract Google tərəfindən hazırlanmış Açıq Mənbəli OCR mühərrikidir və dəqiqliyi və dil dəstəyi ilə tanınır.
Ruby-Tesseract-OCR əsas OCR imkanlarından kənara çıxır və qabaqcıl istifadə halları üçün əlavə funksiyalar təklif edir. Məsələn, proqram tərtibatçıları OCR təhlilini müəyyən bir sahə ilə məhdudlaşdırmaq üçün şəkil daxilində maraq bölgəsini (ROI) təyin edə bilərlər. Bu, xüsusilə mürəkkəb sənədlərlə işləyərkən və ya yalnız müəyyən bir bölmədən mətn çıxarmaq lazım olduqda faydalıdır. Kitabxana OCR imkanlarını artırmaq üçün bir sıra əlavə funksiyalar təqdim edir, məsələn, mövcud təsviri yükləmək, şəkillərdən və ya skan edilmiş sənədlərdən mətn çıxarmaq, HOCR (HTML OCR) çıxışı əldə etmək və daha çox.
Ruby-Tesseract-OCR incisi Tesseract mühərriki ilə qarşılıqlı əlaqə yaratmaq üçün istifadəsi asan interfeys təqdim edərək, Ruby tərtibatçılarına OCR imkanlarını asanlıqla öz layihələrinə inteqrasiya etməyə imkan verir. Fakturalardan məlumat çıxarmaq, çap materiallarını rəqəmsallaşdırmaq və ya məlumatların daxil edilməsi tapşırıqlarını avtomatlaşdırmaqdan asılı olmayaraq, açıq mənbəli kitabxana etibarlı və səmərəli həll yolu təqdim edir. Bunu sınayın və bu gün Ruby layihələrinizdə OCR potensialını açın.
Ruby-Tesseract-OCR ilə işə başlamaq
Ruby-Tesseract-OCR quraşdırmanın tövsiyə olunan yolu Rubygems-dən istifadə etməkdir. Düzgün quraşdırma üçün aşağıdakı əmrdən istifadə edin.
Ruby-Tesseract-OCR-ni Rubygems vasitəsilə quraşdırın
gem install tesseract-ocr
Tərtib edilmiş ortaq kitabxananı Github repozitorundan endirə bilərsiniz.
Ruby vasitəsilə Şəkillərdən və Skan edilmiş Sənədlərdən Mətni çıxarın
Ruby-Tesseract-OCR çox güclü açıq mənbəli kitabxanadır və proqram tərtibatçılarına yalnız bir neçə sətir Ruby kodu ilə müxtəlif növ şəkillərdən mətn yükləməyə və çıxarmağa imkan verir. Kitabxana şəkillərdən, PDF-lərdən və ya skan edilmiş sənədlərdən mətn çıxarmağı asanlaşdırır. Tipik iş prosesi şəklin yüklənməsini, OCR parametrlərinin konfiqurasiya edilməsini və mətni tanımaq üçün OCR mühərrikinin işə salınmasını əhatə edir. Uğurlu bir əməliyyat üçün tərtibatçılar emal etmək istədikləri təsvirin yolunu təmin etməli və mətni çıxarmaq üçün text_for metodunu çağırmalıdırlar. Nəhayət, nəticə konsolda çap olunacaq. Kitabxana OCR davranışına nəzarət etmək üçün müxtəlif Fkonfiqurasiya seçimlərini təklif edir, məsələn, səhifə seqmentasiyası rejimi, ağ siyahı simvolları və s. Aşağıdakı nümunələr proqram tərtibatçılarının Ruby proqramlarında JPEG şəklini necə yükləyə və ondan mətn çıxara biləcəyini göstərir.
Ruby Əmrlərindən istifadə edərək Şəkillərdən Mətni Necə Çıxarmaq olar?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
Ruby vasitəsilə xüsusi şəkil sahəsindən mətni çıxarın
Açıq mənbəli Ruby-Tesseract-OCR kitabxanası əsas OCR imkanlarından kənara çıxır və qabaqcıl istifadə halları üçün əlavə funksiyalar təklif edir. Məsələn, istifadəçilər OCR təhlilini müəyyən bir sahə ilə məhdudlaşdırmaq üçün şəkil daxilində maraq bölgəsini (ROI) təyin edə bilərlər. Bu, xüsusilə mürəkkəb sənədlərlə işləyərkən və ya istifadəçilərə yalnız müəyyən bir bölmədən mətn çıxarmaq lazım olduqda faydalıdır. Bundan əlavə, kitabxana təkcə tanınmış mətni deyil, həm də mətn elementlərinin düzülüşü və koordinatları haqqında məlumatları özündə cəmləşdirən HOCR (HTML OCR) çıxışını əldə etmək üsullarını təqdim edir. HOCR çıxışı sizə daha çox detallı məlumat lazım olduqda və ya mətn strukturunda əlavə təhlil aparmaq istədiyiniz zaman faydalıdır.
Ruby Kitabxanası vasitəsilə Şəkildə hOCR-i necə yerinə yetirmək olar?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')