1. Des produits
  2.   OCR
  3.   Python
  4.   MonkeyOCR
 
  

API Python open source pour créer des applications OCR intelligentes

API OCR Python gratuite pour détecter et reconnaître le texte à partir d'images, y compris les scènes naturelles, les formulaires et les documents numérisés dans les applications Python.

Qu’est‑ce que MonkeyOCR ?

MonkeyOCR est un système avancé de reconnaissance optique de caractères (OCR) de bout en bout, construit sur l’apprentissage profond, destiné aux développeurs logiciels recherchant une solution puissante et flexible. Développée par Yuliang Liu, cette bibliothèque permet la détection et la reconnaissance précises du texte provenant de sources diverses, notamment les scènes naturelles, les formulaires et les documents numérisés. Son architecture modulaire et évolutive combine des techniques d’apprentissage profond de pointe avec un pipeline d’inférence robuste, ce qui le rend particulièrement adapté aux tâches de reconnaissance de texte du monde réel. Les applications pratiques vont de la numérisation de factures et de la lecture de cartes d’identité à l’extraction de texte depuis des panneaux d’affichage, en passant par la construction de pipelines OCR multilingues ou de conversion PDF‑vers‑données.

Conçu pour une flexibilité maximale, MonkeyOCR permet aux ingénieurs logiciels de créer des systèmes intelligents de traitement de documents indépendants des moteurs OCR commerciaux. Il propose de nombreuses fonctionnalités avancées, telles qu’un pipeline OCR entièrement modulaire, une configuration simple via fichier YAML et une prise en charge efficace de l’inférence par lots. Le système fournit des sorties de boîtes de texte précises avec leurs coordonnées, en utilisant des modèles modernes comme DBNet++ pour la détection et CRNN pour la reconnaissance, le tout au sein d’un cadre de pré‑ et post‑traitement configurable. Cette combinaison de conception modulaire, de prise en charge de modèles contemporains et de facilité de configuration fait de MonkeyOCR le choix idéal pour développer des applications sophistiquées du monde réel — de l’automatisation documentaire d’entreprise à la reconnaissance de texte en scène sur mobile.

Previous Next

Commencer avec MonkeyOCR

La méthode recommandée pour installer MonkeyOCR est d’utiliser pip. Veuillez exécuter la commande suivante pour une installation fluide.

Installer MonkeyOCR via pip

 pip install MonkeyOCR 

Installer MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git 

Vous pouvez également l’installer manuellement ; téléchargez les fichiers de la dernière version directement depuis le dépôt GitHub.

Extraction de texte à partir d’une image de reçu avec Python

L’open source MonkeyOCR est un système OCR de bout en bout basé sur des techniques d’apprentissage profond. Les développeurs d’applications qui numérisent des documents, des pièces d’identité, des reçus ou des plaques d’immatriculation peuvent brancher MonkeyOCR directement dans leur pipeline backend. Grâce à son architecture modulaire, vous pouvez n’utiliser que le modèle de détection ou le combiner avec la reconnaissance pour extraire du texte structuré à partir d’images. Voici un exemple simple qui montre comment extraire du texte d’une image de reçu à l’aide de l’API Python.

Comment extraire du texte d’une image de reçu via l’API Python ?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Pipelines OCR personnalisés pour des cas d’usage spécifiques

L’un des plus grands atouts de la bibliothèque open source MonkeyOCR est son architecture modulaire. Les développeurs peuvent assembler et combiner des composants tels que les modèles de détection, de reconnaissance et de classification selon les exigences de leur application. Par exemple, une application de numérisation de documents peut utiliser un modèle léger comme DBNet pour la détection et CRNN pour la reconnaissance, optimisant ainsi vitesse et précision.

Pipelines OCR personnalisés via l’API Python ?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Intégration avec les logiciels d’entreprise

La bibliothèque open source MonkeyOCR peut également être intégrée aux flux de travail documentaires d’entreprise, par exemple pour automatiser la saisie de données dans les systèmes ERP ou CRM. Les développeurs peuvent exécuter MonkeyOCR en arrière‑plan pour analyser les PDF numérisés ou les documents basés sur des images téléchargés par les utilisateurs, extrayant automatiquement les informations structurées. En configurant MonkeyOCR avec un fichier config.yaml, les équipes peuvent garantir la cohérence entre les différentes implémentations.

Construire des lecteurs de formulaires automatisés

En combinant la détection de texte de MonkeyOCR avec les données de position (boîtes englobantes), les développeurs peuvent concevoir des lecteurs de formulaires intelligents qui localisent les champs (par ex. « Nom », « Date », « Montant ») et extraient les données associées. Cela est idéal pour les documents fiscaux, les formulaires médicaux ou les enquêtes.

 Français