Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Co to jest MonkeyOCR?

MonkeyOCR jest zaawansowanym, kompleksowym systemem rozpoznawania znaków optycznych (OCR) opartym na uczeniu głębokim, przeznaczonym dla programistów poszukujących potężnego i elastycznego rozwiązania. Opracowana przez Yulianga Liu, ta biblioteka umożliwia precyzyjne wykrywanie i rozpoznawanie tekstu z różnych źródeł, w tym scen naturalnych, formularzy i zeskanowanych dokumentów. Jej modułowa i skalowalna architektura łączy najnowocześniejsze techniki uczenia głębokiego z solidnym potokiem inferencji, co czyni ją wyjątkowo przydatną w rzeczywistych zadaniach rozpoznawania tekstu. Praktyczne zastosowania obejmują skanowanie faktur i odczyt kart identyfikacyjnych, ekstrakcję tekstu ze znaków oraz budowanie wielojęzycznych systemów OCR lub potoków konwersji PDF na dane.

Zaprojektowany z maksymalną elastycznością, MonkeyOCR umożliwia inżynierom oprogramowania tworzenie inteligentnych systemów przetwarzania dokumentów niezależnych od komercyjnych silników OCR. Oferuje szereg zaawansowanych funkcji, takich jak w pełni modułowy potok OCR, prosta konfiguracja pliku YAML oraz wydajne wsparcie inferencji wsadowej. System dostarcza precyzyjne wyniki w postaci pól tekstowych z współrzędnymi, wykorzystując nowoczesne modele takie jak DBNet++ do wykrywania i CRNN do rozpoznawania, wszystko w ramach konfigurowalnego frameworku przetwarzania wstępnego i końcowego. To połączenie modułowego projektu, wsparcia dla współczesnych modeli i łatwości konfiguracji sprawia, że MonkeyOCR jest idealny do budowy zaawansowanych, rzeczywistych aplikacji — od automatyzacji dokumentów w przedsiębiorstwach po mobilne rozpoznawanie tekstu w scenach.

W skrócie

Przegląd funkcji MonkeyOCR.

Features Overview

Tworzyć aplikacje OCR
Dodawać możliwości OCR
Rozpoznawać tekst na obrazie
Konwertować obrazy tekstu
Rozpoznany tekst czcionki
Inne języki
Tworzyć aplikacje OCR
Zapisywać w przeglądarce
Ekstrahować tekst
Wsparcie wielowątkowości

MonkeyOCR

MonkeyOCR obsługuje popularne formaty plików graficznych wymienione poniżej.

Czytnik

PNG, JPEG, BMP, TIFF, TGA, DICOM

Zapis

PNG, JPEG, BMP, TIFF

MonkeyOCR

Niezależność platformowa

MonkeyOCR może działać z Pythonem 2.7 i nowszymi.

Python 2.7 i nowszy.

MonkeyOCR

Rozpoczęcie pracy z MonkeyOCR

Zalecany sposób instalacji MonkeyOCR to użycie pip. Proszę użyć poniższego polecenia, aby przeprowadzić płynną instalację.

Install MonkeyOCR via pip

 pip install MonkeyOCR

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

You can also install it manually; download the latest release files directly from GitHub repository.

Ekstrahowanie tekstu z obrazu paragonu przy użyciu Pythona

MonkeyOCR open source to jest kompleksowym systemem rozpoznawania znaków optycznych (OCR) opartym na technikach uczenia głębokiego. Programiści pracujący nad aplikacjami skanującymi dokumenty, dowody tożsamości, paragony lub tablice rejestracyjne mogą włączyć MonkeyOCR bezpośrednio do swojego potoku backendowego. Dzięki modułowej konstrukcji można używać jedynie modelu wykrywania lub połączyć go z rozpoznawaniem, aby wyodrębnić strukturalny tekst z obrazów. Poniżej znajduje się prosty przykład demonstrujący, jak wyekstrahować tekst z obrazu paragonu przy użyciu API w Pythonie.

How to Extract Text from a Receipt Image via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Niestandardowe potoki OCR dla konkretnych przypadków użycia

Jedną z największych zalet biblioteki MonkeyOCR open source jest jej modułowa architektura. Programiści mogą mieszać i dopasowywać komponenty takie jak modele wykrywania, rozpoznawania i klasyfikacji w zależności od wymagań aplikacji. Na przykład aplikacja skanująca dokumenty może używać lekkiego modelu takiego jak DBNet do wykrywania i CRNN do rozpoznawania, optymalizując zarówno szybkość, jak i dokładność.

Custom OCR Pipelines via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integracja z oprogramowaniem biznesowym

Biblioteka MonkeyOCR open source może być również włączona do przepływów dokumentów w przedsiębiorstwach, takich jak automatyzacja wprowadzania danych w systemach ERP lub CRM. Programiści mogą uruchamiać MonkeyOCR w tle, aby skanować zeskanowane pliki PDF lub dokumenty oparte na obrazach przesyłane przez użytkowników, automatycznie wyodrębniając strukturalne informacje. Poprzez skonfigurowanie MonkeyOCR za pomocą pliku config.yaml, zespoły mogą utrzymać spójność w różnych wdrożeniach.

Tworzenie zautomatyzowanych czytników formularzy

Łącząc wykrywanie tekstu MonkeyOCR z danymi pozycjonowania (ramki ograniczające), programiści mogą projektować inteligentne czytniki formularzy, które lokalizują pola (np. „Imię”, „Data”, „Kwota”) i wyodrębniają powiązane dane. Jest to idealne rozwiązanie dla dokumentów podatkowych, formularzy medycznych lub ankiet.