Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Was ist MonkeyOCR?

MonkeyOCR ist ein fortschrittliches, End‑to‑End‑Optical‑Character‑Recognition‑System, das auf Deep Learning basiert und sich an Softwareentwickler richtet, die eine leistungsstarke und flexible Lösung suchen. Entwickelt von Yuliang Liu ermöglicht diese Bibliothek die präzise Erkennung und das Erkennen von Text aus verschiedenen Quellen, einschließlich natürlicher Szenen, Formulare und gescannte Dokumente. Ihre modulare und skalierbare Architektur kombiniert modernste Deep‑Learning‑Techniken mit einer robusten Inferenz‑Pipeline, wodurch sie sich besonders gut für Text‑Erkennungsaufgaben in der Praxis eignet. Praktische Anwendungen reichen von der Rechnungs‑ und Ausweis‑Scannung bis hin zur Extraktion von Text aus Beschilderungen und dem Aufbau mehrsprachiger OCR‑ oder PDF‑zu‑Daten‑Pipelines.

Für maximale Flexibilität entwickelt, ermöglicht MonkeyOCR Softwareingenieuren die Erstellung intelligenter Dokumenten‑Verarbeitungssysteme, die unabhängig von kommerziellen OCR‑Engines arbeiten. Es bietet eine Reihe fortschrittlicher Funktionen, wie eine vollständig modulare OCR‑Pipeline, einfache YAML‑Dateikonfiguration und effiziente Batch‑Inference‑Unterstützung. Das System liefert präzise Text‑Box‑Ausgaben mit Koordinaten und nutzt moderne Modelle wie DBNet++ für die Erkennung und CRNN für die Texterkennung, alles innerhalb eines konfigurierbaren Vor‑ und Nachverarbeitungs‑Frameworks. Diese Kombination aus modularem Design, Unterstützung zeitgemäßer Modelle und einfacher Konfiguration macht MonkeyOCR perfekt geeignet für den Aufbau anspruchsvoller, realer Anwendungen – von der Unternehmens‑Dokumentautomatisierung bis hin zur mobilen Szenen‑Texterkennung.

Auf einen Blick

Ein Überblick über die Funktionen von MonkeyOCR.

Features Overview

OCR‑Apps erstellen
OCR‑Funktionen hinzufügen
Bildtext erkennen
Texte aus Bildern konvertieren
Erkannten Schriftart‑Text
Weitere Sprachen
OCR‑Apps erstellen
Im Browser speichern
Text extrahieren
Mehrthread‑Unterstützung

MonkeyOCR

MonkeyOCR unterstützt die unten aufgeführten gängigen Bilddateiformate.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schreiber

PNG, JPEG, BMP, TIFF

MonkeyOCR

Plattformunabhängigkeit

MonkeyOCR kann mit Python 2.7 und höher arbeiten.

Python 2.7 und höher.

MonkeyOCR

Erste Schritte mit MonkeyOCR

Die empfohlene Methode, MonkeyOCR zu installieren, ist die Verwendung von pip. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.

MonkeyOCR via pip installieren

 pip install MonkeyOCR

MonkeyOCR über GitHub installieren

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Sie können es auch manuell installieren; laden Sie die neuesten Release‑Dateien direkt aus dem GitHub Repository herunter.

Text aus einem Belegbild mit Python extrahieren

Das Open‑Source‑Projekt MonkeyOCR ist ein End‑to‑End‑Optical‑Character‑Recognition‑System, das auf Deep‑Learning‑Techniken basiert. Softwareentwickler, die Apps zum Scannen von Dokumenten, Ausweisen, Belegen oder Kennzeichen entwickeln, können MonkeyOCR direkt in ihre Backend‑Pipeline einbinden. Mit seinem modularen Design können Sie entweder nur das Erkennungs‑Modell verwenden oder es mit der Erkennung kombinieren, um strukturierten Text aus Bildern zu extrahieren. Hier ist ein einfaches Beispiel, das zeigt, wie man Text aus einem Belegbild mit der Python‑API extrahiert.

Wie extrahiere ich Text aus einem Belegbild über die Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Benutzerdefinierte OCR‑Pipelines für spezifische Anwendungsfälle

Eine der größten Stärken der Open‑Source‑MonkeyOCR‑Bibliothek ist ihre modulare Architektur. Softwareentwickler können Komponenten wie Erkennungs‑, Erkennungs‑ und Klassifizierungs‑Modelle je nach Anwendungsanforderungen kombinieren und austauschen. Beispielsweise kann eine Dokumentenscanning‑App ein leichtgewichtiges Modell wie DBNet für die Erkennung und CRNN für die Texterkennung verwenden, um sowohl Geschwindigkeit als auch Genauigkeit zu optimieren.

Benutzerdefinierte OCR‑Pipelines über die Python‑API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integration in Unternehmenssoftware

Die Open‑Source‑MonkeyOCR‑Bibliothek kann auch in Unternehmens‑Dokumenten‑Workflows eingebunden werden, etwa zur Automatisierung der Dateneingabe in ERP‑ oder CRM‑Systemen. Softwareentwickler können MonkeyOCR im Hintergrund laufen lassen, um gescannte PDFs oder bildbasierte Dokumente, die von Benutzern hochgeladen werden, zu scannen und automatisch strukturierte Informationen zu extrahieren. Durch die Konfiguration von MonkeyOCR mit einer config.yaml können Teams Konsistenz über verschiedene Deployments hinweg wahren.

Automatisierte Formularleser erstellen

Durch die Kombination der Text‑Erkennung von MonkeyOCR mit Positionsdaten (Bounding‑Boxes) können Entwickler intelligente Formularleser entwerfen, die Felder (z. B. „Name“, „Datum“, „Betrag“) lokalisieren und die zugehörigen Daten extrahieren. Dies ist ideal für Steuerdokumente, medizinische Formulare oder Umfragen.