Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

Che cos'è MonkeyOCR?

MonkeyOCR è un sistema avanzato, end‑to‑end di Riconoscimento Ottico dei Caratteri basato sul deep learning, pensato per gli sviluppatori software che cercano una soluzione potente e flessibile. Sviluppata da Yuliang Liu, questa libreria consente il rilevamento e il riconoscimento precisi del testo da fonti diverse, incluse scene naturali, moduli e documenti scansionati. La sua architettura modulare e scalabile combina tecniche di deep learning all’avanguardia con una robusta pipeline di inferenza, rendendola particolarmente adatta a compiti di riconoscimento del testo nel mondo reale. Le applicazioni pratiche spaziano dalla scansione di fatture e lettura di carte d’identità all’estrazione di testo da cartelloni e alla costruzione di pipeline OCR multilingue o da PDF a dati.

Progettato per la massima flessibilità, MonkeyOCR permette agli ingegneri del software di creare sistemi intelligenti di elaborazione documenti indipendenti da motori OCR commerciali. Offre una serie di funzionalità avanzate, come una pipeline OCR completamente modulare, configurazione semplice tramite file YAML e supporto efficiente per inferenza batch. Il sistema fornisce output precisi delle caselle di testo con coordinate, utilizzando modelli moderni come DBNet++ per il rilevamento e CRNN per il riconoscimento, il tutto all’interno di un framework configurabile di pre‑ e post‑processing. Questa combinazione di design modulare, supporto per modelli contemporanei e facilità di configurazione rende MonkeyOCR perfetto per costruire applicazioni sofisticate e reali—dall’automazione documentale aziendale al riconoscimento di testo in scenari mobili.

A colpo d'occhio

Una panoramica delle funzionalità di MonkeyOCR.

Panoramica delle funzionalità

Crea app OCR
Aggiungi capacità OCR
Riconosci testo nell'immagine
Converti immagini di testo
Testo di font riconosciuto
Altre lingue
Crea app OCR
Salva nel browser
Estrai testo
Supporto multithreading

MonkeyOCR

MonkeyOCR supporta i formati di file immagine più diffusi elencati di seguito.

Lettore

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scrittore

PNG, JPEG, BMP, TIFF

MonkeyOCR

Indipendenza dalla piattaforma

MonkeyOCR può funzionare con Python 2.7 e versioni successive.

Python 2.7 e versioni successive.

MonkeyOCR

Guida introduttiva a MonkeyOCR

Il modo consigliato per installare MonkeyOCR è utilizzare pip. Si prega di usare il comando seguente per un'installazione senza problemi.

Installa MonkeyOCR via pip

 pip install MonkeyOCR

Installa MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Puoi anche installarlo manualmente; scarica i file dell'ultima release direttamente dal repository GitHub.

Estrazione del testo da un'immagine di ricevuta tramite Python

L'open source MonkeyOCR è un sistema end‑to‑end di Riconoscimento Ottico dei Caratteri basato su tecniche di deep learning. Gli sviluppatori software che lavorano su app che scansionano documenti, ID, ricevute o targhe possono integrare MonkeyOCR direttamente nella loro pipeline di backend. Grazie al design modulare, è possibile utilizzare solo il modello di rilevamento o combinarlo con il riconoscimento per estrarre testo strutturato dalle immagini. Ecco un semplice esempio che dimostra come estrarre testo da un'immagine di ricevuta usando l'API Python.

Come estrarre testo da un'immagine di ricevuta tramite l'API Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Pipeline OCR personalizzate per casi d'uso specifici

Una delle maggiori forze della libreria open source MonkeyOCR è la sua architettura modulare. Gli sviluppatori software possono mescolare e abbinare componenti come modelli di rilevamento, riconoscimento e classificazione in base ai requisiti dell'applicazione. Per esempio, un'app di scansione documenti può utilizzare un modello leggero come DBNet per il rilevamento e CRNN per il riconoscimento, ottimizzando sia velocità che precisione.

Pipeline OCR personalizzate tramite l'API Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrazione con software aziendali

La libreria open source MonkeyOCR può anche essere integrata nei flussi di lavoro documentali aziendali, ad esempio per automatizzare l'inserimento dati in sistemi ERP o CRM. Gli sviluppatori possono eseguire MonkeyOCR in background per scansionare PDF o documenti basati su immagini caricati dagli utenti, estraendo automaticamente informazioni strutturate. Configurando MonkeyOCR con un file config.yaml, i team possono mantenere coerenza tra diverse distribuzioni.

Crea lettori di moduli automatizzati

Combinando il rilevamento del testo di MonkeyOCR con dati posizionali (bounding box), gli sviluppatori possono progettare lettori di moduli intelligenti che individuano campi (ad es., “Nome”, “Data”, “Importo”) ed estraggono i dati associati. Questo è ideale per documenti fiscali, moduli medici o sondaggi.