Ağıllı OCR Tətbiqləri Qurmaq üçün Açıq Mənbəli Python API
Şəkillərdən, təbii səhnələr, formalar və skan edilmiş sənədlər daxil olmaqla, mətn aşkar etmək və tanımaq üçün Pulsuz Python OCR API.
MonkeyOCR nədir?
MonkeyOCR güclü və elastik həll axtaran proqram tərtibatçıları üçün dərin öyrənmə əsasında qurulmuş qabaqcıl, tam‑son Optical Character Recognition (OCR) sistemidir. Yuliang Liu tərəfindən hazırlanmış bu kitabxana təbii səhnələr, formalar və skan edilmiş sənədlər kimi müxtəlif mənbələrdən mətnin dəqiq aşkarlanması və tanınmasını təmin edir. Modul və miqyaslana bilən arxitekturası qabaqcıl dərin öyrənmə texnikalarını möhkəm nəticə çıxarış boru kəməri ilə birləşdirir və real‑dünyada mətn tanıma tapşırıqları üçün xüsusilə uyğundur. Praktik tətbiqlərə faktura skan edilməsi, şəxsiyyət vəsiqəsi oxunması, işarə lövhələrindən mətn çıxarılması və çoxdilli OCR və ya PDF‑dən‑məlumat boru kəmərlərinin yaradılması daxildir.
Maksimum elastikliyə yönəldilmiş MonkeyOCR kommersiya OCR mühərriklərindən asılı olmayan intellektual sənəd işləmə sistemləri yaratmaq üçün proqram mühəndislərinə imkan verir. Tam modul OCR boru kəməri, sadə YAML fayl konfiqurasiyası və səmərəli toplu nəticə çıxarışı dəstəyi kimi bir sıra qabaqcıl xüsusiyyətlərə malikdir. Sistem DBNet++ kimi müasir aşkarlama modelləri və CRNN kimi tanıma modelləri ilə koordinatlarla dəqiq mətn qutusu çıxışları təqdim edir, hamısı konfiqurasiya edilə bilən ön‑ və arxa‑emal çərçivəsində. Bu modul dizayn, müasir modellərə dəstək və asan konfiqurasiya birləşməsi MonkeyOCR‑u müəssisə sənəd avtomatlaşdırmasından mobil‑əsaslı səhnə mətn tanıma qədər mürəkkəb, real‑dünya tətbiqləri yaratmaq üçün ideal edir.
MonkeyOCR ilə Başlamaq
MonkeyOCR quraşdırmağın tövsiyə olunan yolu pip istifadə etməkdir. Zəhmət olmasa, problemsiz quraşdırma üçün aşağıdakı əmri istifadə edin.
Install MonkeyOCR via pip
pip install MonkeyOCR Install MonkeyOCR via GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git Siz həmçinin onu əl ilə quraşdıra bilərsiniz; ən son buraxılış fayllarını birbaşa GitHub repozitoriyasından yükləyin.
Python vasitəsilə Qəbz Şəkilindən Mətn Çıxarmaq
MonkeyOCR açıq mənbəli, dərin öyrənmə texnikalarına əsaslanan tam‑son Optical Character Recognition sistemidir. Sənədləri, şəxsiyyət vəsiqələrini, qəbzləri və ya plaka nömrələrini skan edən tətbiqlər üzərində çalışan proqram tərtibatçıları MonkeyOCR‑u birbaşa arxa‑plan boru kəmərinə qoşa bilərlər. Modul dizaynı sayəsində yalnız aşkarlama modelindən və ya tanıma modelindən istifadə edərək şəkillərdən strukturlaşdırılmış mətn çıxara bilərsiniz. Aşağıda Python API‑si ilə qəbz şəkilindən mətn çıxarmağı göstərən sadə nümunə var.
How to Extract Text from a Receipt Image via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Müəyyən İstifadə Halları üçün Xüsusi OCR Boru Kəmərləri
MonkeyOCR‑un açıq mənbəli kitabxanasının ən böyük güclü tərəflərindən biri onun modul arxitekturasıdır. Proqram tərtibatçıları tətbiq tələblərinə uyğun olaraq aşkarlama, tanıma və sinifləndirmə modellərini qarışdırıb uyğunlaşdıra bilərlər. Məsələn, sənəd skan edən tətbiq DBNet kimi yüngül modeldən aşkarlama, CRNN‑dən tanıma üçün istifadə edərək həm sürət, həm də dəqiqliyi optimallaşdıra bilər.
Custom OCR Pipelines via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
Biznes Proqramları ilə İnteqrasiya
MonkeyOCR‑un açıq mənbəli kitabxanası ERP və ya CRM sistemlərində məlumat girişinin avtomatlaşdırılması kimi müəssisə sənəd iş axınlarına da qoşula bilər. Proqram tərtibatçıları MonkeyOCR‑u arxa‑planda işlədərək istifadəçilərin yüklədiyi skan edilmiş PDF‑lər və ya şəkil‑əsaslı sənədləri skan edə, avtomatik strukturlaşdırılmış məlumat çıxara bilərlər. MonkeyOCR‑u config.yaml ilə konfiqurasiya edərək komandalar müxtəlif yerləşdirmələrdə tutarlılığı təmin edə bilərlər.
Avtomatlaşdırılmış Forma Oxuyucuları Qurmaq
MonkeyOCR‑un mətn aşkarlamasını mövqeləndirici məlumat (bounding boxes) ilə birləşdirərək, tərtibatçılar “Ad”, “Tarix”, “Məbləğ” kimi sahələri tapıb əlaqəli məlumatı çıxaran intellektual forma oxuyucuları dizayn edə bilərlər. Bu, vergi sənədləri, tibbi formalar və ya sorğular üçün ideal həldir.