Отворен Python API за създаване на интелигентни OCR приложения

Безплатен Python OCR API за откриване и разпознаване на текст от изображения, включително естествени сцени, формуляри и сканирани документи в Python приложения.

Какво е MonkeyOCR?

MonkeyOCR е напреднала, пълноценна система за оптично разпознаване на знаци (OCR), изградена върху дълбоко обучение, предназначена за софтуерни разработчици, търсещи мощно и гъвкаво решение. Разработена от Юлианг Лю, тази библиотека позволява прецизно откриване и разпознаване на текст от различни източници, включително естествени сцени, формуляри и сканирани документи. Модулната и мащабируема архитектура комбинира най-новите техники за дълбоко обучение с надежден процес на инференция, което я прави изключително подходяща за реални задачи по разпознаване на текст. Практическите приложения варират от сканиране на фактури и четене на лични карти до извличане на текст от табла и създаване на многобройни OCR или PDF‑to‑data конвейери.

Създадена за максимална гъвкавост, MonkeyOCR дава възможност на софтуерните инженери да създават интелигентни системи за обработка на документи, независими от комерсиални OCR двигатели. Тя разполага с набор от напреднали функции, като напълно модулен OCR конвейер, проста конфигурация чрез YAML файл и ефективна поддръжка на пакетен инференс. Системата предоставя точни изходи за текстови кутии с координати, използвайки съвременни модели като DBNet++ за откриване и CRNN за разпознаване, всичко в рамките на конфигурирана пред‑ и пост‑обработка. Това съчетание от модулен дизайн, подкрепа за актуални модели и лесна конфигурация прави MonkeyOCR идеална за изграждане на сложни, реални приложения – от автоматизация на корпоративни документи до мобилно разпознаване на текст в сцени.

На пръв поглед

Преглед на функциите на MonkeyOCR.

Features Overview

Създаване на OCR приложения
Добавяне на OCR възможности
Разпознаване на текст в изображение
Конвертиране на изображения с текст
Разпознаване на шрифтов текст
Други езици
Създаване на OCR приложения
Запис в браузъра
Извличане на текст
Поддръжка на многонитово изпълнение

MonkeyOCR

MonkeyOCR поддържа популярни файлови формати за изображения, изброени по-долу.

Четец

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записвач

PNG, JPEG, BMP, TIFF

MonkeyOCR

Платформена независимост

MonkeyOCR може да работи с Python 2.7 и по-нови версии.

Python 2.7 & above.

MonkeyOCR

Започнете с MonkeyOCR

Препоръчителният начин за инсталиране на MonkeyOCR е чрез pip. Моля, използвайте следната команда за безпроблемна инсталация.

Install MonkeyOCR via pip

 pip install MonkeyOCR

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

You can also install it manually; download the latest release files directly from GitHub repository.

Извличане на текст от изображение на разписка чрез Python

The open source MonkeyOCR is an end-to-end Optical Character Recognition system based on deep learning techniques. Software Developers working on apps that scan documents, IDs, receipts, or license plates can plug MonkeyOCR directly into their backend pipeline. With its modular design, you can use just the detection model or combine it with recognition to extract structured text from images. Here is a simple example that demonstrates how to extract text from a receipt image using Python API.

How to Extract Text from a Receipt Image via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Персонализирани OCR конвейери за специфични случаи

One of the biggest strengths of open source MonkeyOCR library is its modular architecture. Software developers can mix and match components such as detection, recognition, and classification models based on their application requirements. For example, a document scanning app can use a lightweight model like DBNet for detection and CRNN for recognition, optimizing both speed and accuracy.

Custom OCR Pipelines via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Интеграция с бизнес софтуер

The open source MonkeyOCR library can also be plugged into enterprise document workflows, such as automating data entry in ERP or CRM systems. Software developers can run MonkeyOCR in the background to scan scanned PDFs or image-based documents uploaded by users, automatically extracting structured information. By configuring MonkeyOCR with a config.yaml, teams can maintain consistency across different deployments.

Създаване на автоматизирани четци на формуляри

By combining MonkeyOCR’s text detection with positional data (bounding boxes), developers can design intelligent form readers that locate fields (e.g., “Name”, “Date”, “Amount”) and extract associated data. This is ideal for tax documents, medical forms, or surveys.