Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Co je MonkeyOCR?

MonkeyOCR je pokročilý, end-to-end systém pro optické rozpoznávání znaků (OCR) postavený na hlubokém učení, určený vývojářům softwaru, kteří hledají výkonné a flexibilní řešení. Vyvinutý Yuliang Liu, tato knihovna umožňuje přesnou detekci a rozpoznávání textu z různých zdrojů, včetně přirozených scén, formulářů a naskenovaných dokumentů. Jeho modulární a škálovatelná architektura spojuje špičkové techniky hlubokého učení s robustním inferenčním pipeline, což ji činí výjimečně vhodnou pro reálné úlohy rozpoznávání textu. Praktické aplikace sahají od skenování faktur a čtení ID karet po extrakci textu z reklamních tabulí a tvorbu vícejazykových OCR nebo PDF‑to‑data pipeline.

Navržený pro maximální flexibilitu, MonkeyOCR umožňuje softwarovým inženýrům vytvářet inteligentní systémy pro zpracování dokumentů nezávislé na komerčních OCR enginech. Disponuje řadou pokročilých funkcí, jako je plně modulární OCR pipeline, jednoduchá konfigurace pomocí YAML souboru a efektivní podpora dávkového inferencování. Systém poskytuje přesné výstupy textových oken s koordináty, využívá moderní modely jako DBNet++ pro detekci a CRNN pro rozpoznávání, vše v rámci konfigurovatelného před‑ a post‑procesního rámce. Tato kombinace modulárního designu, podpory současných modelů a snadné konfigurace činí MonkeyOCR ideálním pro tvorbu sofistikovaných reálných aplikací – od automatizace podnikových dokumentů po mobilní rozpoznávání textu ve scéně.

Na první pohled

Přehled funkcí MonkeyOCR.

Features Overview

Vytvářet OCR aplikace
Přidat OCR schopnosti
Rozpoznávat text na obrázku
Převádět obrázky s textem
Rozpoznávat text fontu
Další jazyky
Vytvářet OCR aplikace
Uložit do prohlížeče
Extrahovat text
Podpora více vláken

MonkeyOCR

MonkeyOCR podporuje populární formáty obrázků uvedené níže.

Čtení

PNG, JPEG, BMP, TIFF, TGA, DICOM

Zápis

PNG, JPEG, BMP, TIFF

MonkeyOCR

Nezávislost na platformě

MonkeyOCR může pracovat s Python 2.7 a novějšími.

Python 2.7 & above.

MonkeyOCR

Začínáme s MonkeyOCR

Doporučený způsob instalace MonkeyOCR je pomocí pip. Použijte následující příkaz pro hladkou instalaci.

Install MonkeyOCR via pip

 pip install MonkeyOCR

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

You can also install it manually; download the latest release files directly from GitHub repository.

Extrahování textu z obrázku účtenky pomocí Pythonu

Open source MonkeyOCR je end-to-end systém pro optické rozpoznávání znaků založený na technikách hlubokého učení. Vývojáři softwaru pracující na aplikacích, které skenují dokumenty, ID, účtenky nebo poznávací značky, mohou MonkeyOCR přímo zapojit do svého backend pipeline. Díky modulárnímu designu můžete použít jen detekční model nebo jej kombinovat s rozpoznáváním pro extrakci strukturovaného textu z obrázků. Zde je jednoduchý příklad, který ukazuje, jak extrahovat text z obrázku účtenky pomocí Python API.

Jak extrahovat text z obrázku účtenky pomocí Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Vlastní OCR pipeline pro konkrétní případy použití

Jednou z největších sil open source knihovny MonkeyOCR je její modulární architektura. Vývojáři mohou kombinovat komponenty jako detekční, rozpoznávací a klasifikační modely podle požadavků své aplikace. Například aplikace pro skenování dokumentů může použít lehký model jako DBNet pro detekci a CRNN pro rozpoznávání, čímž optimalizuje jak rychlost, tak přesnost.

Vlastní OCR pipeline pomocí Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrace s podnikovým softwarem

Open source knihovna MonkeyOCR může být také zapojena do podnikových workflow dokumentů, například pro automatizaci zadávání dat v ERP nebo CRM systémech. Vývojáři mohou spouštět MonkeyOCR na pozadí pro skenování naskenovaných PDF nebo dokumentů založených na obrázcích nahrávaných uživateli, automaticky extrahovat strukturované informace. Konfigurací MonkeyOCR pomocí config.yaml mohou týmy udržovat konzistenci napříč různými nasazeními.

Vytvořte automatizované čtečky formulářů

Kombinací detekce textu MonkeyOCR s pozičními daty (ohraničujícími boxy) mohou vývojáři navrhnout inteligentní čtečky formulářů, které lokalizují pole (např. „Jméno“, „Datum“, „Částka“) a extrahují související data. To je ideální pro daňové dokumenty, lékařské formuláře nebo ankety.