Отворен Python API за създаване на интелигентни OCR приложения
Безплатен Python OCR API за откриване и разпознаване на текст от изображения, включително естествени сцени, формуляри и сканирани документи в Python приложения.
Какво е MonkeyOCR?
MonkeyOCR е напреднала, пълноценна система за оптично разпознаване на знаци (OCR), изградена върху дълбоко обучение, предназначена за софтуерни разработчици, търсещи мощно и гъвкаво решение. Разработена от Юлианг Лю, тази библиотека позволява прецизно откриване и разпознаване на текст от различни източници, включително естествени сцени, формуляри и сканирани документи. Модулната и мащабируема архитектура комбинира най-новите техники за дълбоко обучение с надежден процес на инференция, което я прави изключително подходяща за реални задачи по разпознаване на текст. Практическите приложения варират от сканиране на фактури и четене на лични карти до извличане на текст от табла и създаване на многобройни OCR или PDF‑to‑data конвейери.
Създадена за максимална гъвкавост, MonkeyOCR дава възможност на софтуерните инженери да създават интелигентни системи за обработка на документи, независими от комерсиални OCR двигатели. Тя разполага с набор от напреднали функции, като напълно модулен OCR конвейер, проста конфигурация чрез YAML файл и ефективна поддръжка на пакетен инференс. Системата предоставя точни изходи за текстови кутии с координати, използвайки съвременни модели като DBNet++ за откриване и CRNN за разпознаване, всичко в рамките на конфигурирана пред‑ и пост‑обработка. Това съчетание от модулен дизайн, подкрепа за актуални модели и лесна конфигурация прави MonkeyOCR идеална за изграждане на сложни, реални приложения – от автоматизация на корпоративни документи до мобилно разпознаване на текст в сцени.
Започнете с MonkeyOCR
Препоръчителният начин за инсталиране на MonkeyOCR е чрез pip. Моля, използвайте следната команда за безпроблемна инсталация.
Install MonkeyOCR via pip
pip install MonkeyOCR Install MonkeyOCR via GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git You can also install it manually; download the latest release files directly from GitHub repository.
Извличане на текст от изображение на разписка чрез Python
The open source MonkeyOCR is an end-to-end Optical Character Recognition system based on deep learning techniques. Software Developers working on apps that scan documents, IDs, receipts, or license plates can plug MonkeyOCR directly into their backend pipeline. With its modular design, you can use just the detection model or combine it with recognition to extract structured text from images. Here is a simple example that demonstrates how to extract text from a receipt image using Python API.
How to Extract Text from a Receipt Image via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Персонализирани OCR конвейери за специфични случаи
One of the biggest strengths of open source MonkeyOCR library is its modular architecture. Software developers can mix and match components such as detection, recognition, and classification models based on their application requirements. For example, a document scanning app can use a lightweight model like DBNet for detection and CRNN for recognition, optimizing both speed and accuracy.
Custom OCR Pipelines via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
Интеграция с бизнес софтуер
The open source MonkeyOCR library can also be plugged into enterprise document workflows, such as automating data entry in ERP or CRM systems. Software developers can run MonkeyOCR in the background to scan scanned PDFs or image-based documents uploaded by users, automatically extracting structured information. By configuring MonkeyOCR with a config.yaml, teams can maintain consistency across different deployments.
Създаване на автоматизирани четци на формуляри
By combining MonkeyOCR’s text detection with positional data (bounding boxes), developers can design intelligent form readers that locate fields (e.g., “Name”, “Date”, “Amount”) and extract associated data. This is ideal for tax documents, medical forms, or surveys.