Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Що таке MonkeyOCR?

MonkeyOCR – це передова, сквозна система оптичного розпізнавання символів (OCR), побудована на глибокому навчанні для розробників програмного забезпечення, які шукають потужне та гнучке рішення. Розроблена Юліангом Лю, ця бібліотека забезпечує точне виявлення та розпізнавання тексту з різноманітних джерел, включаючи природні сцени, форми та скановані документи. Її модульна та масштабована архітектура поєднує новітні технології глибокого навчання з надійним конвеєром інференції, що робить її надзвичайно придатною для реальних завдань розпізнавання тексту. Практичні застосування охоплюють сканування рахунків, зчитування посвідчень особи, витяг тексту з вивісок та створення багатомовних OCR‑конвеєрів або конвеєрів «PDF‑до‑даних».

Створена для максимальної гнучкості, MonkeyOCR дає змогу інженерам‑розробникам створювати інтелектуальні системи обробки документів без залежності від комерційних OCR‑двигунів. Вона пропонує широкий спектр передових функцій, таких як повністю модульний OCR‑конвеєр, просте налаштування через YAML‑файл та ефективна підтримка пакетної інференції. Система надає точні результати у вигляді текстових блоків з координатами, використовуючи сучасні моделі, наприклад DBNet++ для виявлення та CRNN для розпізнавання, все це в рамках налаштовуваного процесу попередньої та пост‑обробки. Поєднання модульного дизайну, підтримки актуальних моделей та простоти налаштування робить MonkeyOCR ідеальним вибором для створення складних реальних застосунків — від автоматизації корпоративних документів до мобільного розпізнавання тексту на сценах.

Огляд

Огляд можливостей MonkeyOCR.

Features Overview

Створювати OCR‑додатки
Додавати OCR‑можливості
Розпізнавати текст на зображеннях
Конвертувати зображення з текстом
Розпізнавати шрифтовий текст
Інші мови
Створювати OCR‑додатки
Зберігати у браузері
Витягувати текст
Підтримка багатопоточності

MonkeyOCR

MonkeyOCR підтримує популярні формати файлів зображень, перелічені нижче.

Читач

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записувач

PNG, JPEG, BMP, TIFF

MonkeyOCR

Платформна незалежність

MonkeyOCR може працювати з Python 2.7 та вище.

Python 2.7 & вище.

MonkeyOCR

Початок роботи з MonkeyOCR

Рекомендований спосіб встановлення MonkeyOCR – використання pip. Будь ласка, скористайтеся наступною командою для безпроблемного встановлення.

Install MonkeyOCR via pip

 pip install MonkeyOCR

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Ви також можете встановити його вручну; завантажте останні файли релізу безпосередньо з GitHub репозиторію.

Витягнення тексту з зображення чеку за допомогою Python

Відкритий MonkeyOCR – це сквозна система оптичного розпізнавання символів, заснована на технологіях глибокого навчання. Розробники, які створюють додатки для сканування документів, посвідчень, чеків або номерних знаків, можуть підключити MonkeyOCR безпосередньо до свого бек‑енд конвеєра. Завдяки модульному дизайну, можна використовувати лише модель виявлення або комбінувати її з розпізнаванням для отримання структурованого тексту з зображень. Нижче наведено простий приклад, який демонструє, як витягнути текст з зображення чеку за допомогою Python API.

Як витягнути текст з зображення чеку за допомогою Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Кастомні OCR‑конвеєри для конкретних випадків використання

Однією з найбільших переваг відкритої бібліотеки MonkeyOCR є її модульна архітектура. Розробники можуть комбінувати компоненти, такі як моделі виявлення, розпізнавання та класифікації, відповідно до вимог свого застосунку. Наприклад, додаток для сканування документів може використовувати легку модель DBNet для виявлення та CRNN для розпізнавання, оптимізуючи і швидкість, і точність.

Кастомні OCR‑конвеєри через Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Інтеграція з бізнес‑програмним забезпеченням

Відкрита бібліотека MonkeyOCR також може бути інтегрована у корпоративні документообігові процеси, наприклад, автоматизацію вводу даних у ERP або CRM системах. Розробники можуть запускати MonkeyOCR у фоновому режимі для сканування PDF‑файлів або документів‑зображень, завантажених користувачами, автоматично витягуючи структуровану інформацію. Налаштувавши MonkeyOCR за допомогою config.yaml, команди можуть забезпечити послідовність роботи у різних розгортаннях.

Створення автоматизованих зчитувачів форм

Поєднуючи детекцію тексту MonkeyOCR з позиційними даними (обмежувальними рамками), розробники можуть створювати інтелектуальні зчитувачі форм, які знаходять поля (наприклад, “Ім’я”, “Дата”, “Сума”) та витягують пов’язані дані. Це ідеально підходить для податкових документів, медичних форм або опитувань.