Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Что такое MonkeyOCR?

MonkeyOCR – это продвинутая сквозная система оптического распознавания символов (OCR), построенная на основе глубокого обучения для разработчиков программного обеспечения, ищущих мощное и гибкое решение. Разработанная Юлианем Лю, эта библиотека обеспечивает точное обнаружение и распознавание текста из различных источников, включая естественные сцены, формы и отсканированные документы. Ее модульная и масштабируемая архитектура объединяет передовые методы глубокого обучения с надёжным конвейером вывода, что делает её исключительно подходящей для реальных задач распознавания текста. Практические применения варьируются от сканирования счетов и чтения удостоверений личности до извлечения текста с вывесок и построения многоязычных OCR‑конвейеров или конвейеров «PDF‑в‑данные».

Разработанный для максимальной гибкости, MonkeyOCR позволяет инженерам‑программистам создавать интеллектуальные системы обработки документов, независимые от коммерческих OCR‑движков. Он обладает рядом продвинутых функций, таких как полностью модульный OCR‑конвейер, простая конфигурация через YAML‑файл и эффективная поддержка пакетного вывода. Система выдаёт точные координаты текстовых блоков, используя современные модели, такие как DBNet++ для обнаружения и CRNN для распознавания, всё в рамках настраиваемого пред- и пост‑обработочного фреймворка. Такое сочетание модульного дизайна, поддержки современных моделей и простоты настройки делает MonkeyOCR идеальным для построения сложных реальных приложений — от автоматизации корпоративных документов до мобильного распознавания текста в сценах.

Обзор

Обзор функций MonkeyOCR.

Features Overview

Создавать OCR‑приложения
Добавлять возможности OCR
Распознавать текст на изображениях
Преобразовывать изображения текста
Распознавать шрифтовый текст
Другие языки
Создавать OCR‑приложения
Сохранять в браузер
Извлекать текст
Поддержка многопоточности

MonkeyOCR

MonkeyOCR поддерживает популярные форматы файлов изображений, перечисленные ниже.

Чтение

PNG, JPEG, BMP, TIFF, TGA, DICOM

Запись

PNG, JPEG, BMP, TIFF

MonkeyOCR

Платформенная независимость

MonkeyOCR может работать с Python 2.7 и выше.

Python 2.7 и выше.

MonkeyOCR

Начало работы с MonkeyOCR

Рекомендуемый способ установки MonkeyOCR – использование pip. Пожалуйста, выполните следующую команду для беспроблемной установки.

Установить MonkeyOCR через pip

 pip install MonkeyOCR

Установить MonkeyOCR через GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Вы также можете установить его вручную; загрузите последние файлы релиза напрямую из репозитория GitHub.

Извлечение текста из изображения чека с помощью Python

MonkeyOCR – открытый проект, представляющий собой сквозную систему оптического распознавания символов, основанную на техниках глубокого обучения. Разработчики приложений, сканирующих документы, удостоверения личности, чеки или номера автомобильных номеров, могут напрямую интегрировать MonkeyOCR в свой серверный конвейер. Благодаря модульному дизайну, можно использовать только модель обнаружения или комбинировать её с распознаванием для извлечения структурированного текста из изображений. Ниже приведён простой пример, демонстрирующий, как извлечь текст из изображения чека с помощью Python API.

Как извлечь текст из изображения чека через Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Пользовательские OCR‑конвейеры для конкретных случаев использования

Одним из главных преимуществ открытой библиотеки MonkeyOCR является её модульная архитектура. Разработчики могут комбинировать компоненты, такие как модели обнаружения, распознавания и классификации, в зависимости от требований приложения. Например, приложение для сканирования документов может использовать лёгкую модель DBNet для обнаружения и CRNN для распознавания, оптимизируя как скорость, так и точность.

Пользовательские OCR‑конвейеры через Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Интеграция с бизнес‑программным обеспечением

Открытую библиотеку MonkeyOCR также можно интегрировать в корпоративные рабочие процессы с документами, например, автоматизировать ввод данных в ERP или CRM системы. Разработчики могут запускать MonkeyOCR в фоновом режиме для сканирования PDF‑файлов или изображений, загруженных пользователями, автоматически извлекая структурированную информацию. Настраивая MonkeyOCR через файл config.yaml, команды могут поддерживать единообразие конфигураций в разных развертываниях.

Создание автоматизированных считывателей форм

Комбинируя детекцию текста MonkeyOCR с позиционными данными (ограничительные рамки), разработчики могут создавать интеллектуальные считыватели форм, которые находят поля (например, «Имя», «Дата», «Сумма») и извлекают связанные данные. Это идеально подходит для налоговых документов, медицинских форм или опросов.