API Python open source per integrare funzionalità OCR
Libreria Python open source che consente agli sviluppatori di software di integrare facilmente le funzionalità di riconoscimento ottico dei caratteri (OCR) nelle loro applicazioni.
PaddleOCR è una potente libreria Python open source che consente agli sviluppatori di software di integrare facilmente le funzionalità di riconoscimento ottico dei caratteri (OCR) nelle loro applicazioni Python. Si basa su PaddlePaddle, una piattaforma di deep learning open source e utilizza modelli di deep learning all'avanguardia per ottenere precisione e prestazioni elevate. PaddleOCR semplifica il processo OCR fornendo un'API di alto livello che astrae molti dei dettagli di basso livello, consentendo agli sviluppatori di aggiungere facilmente funzionalità OCR alle loro applicazioni.
PaddleOCR ha fornito supporto completo per un'ampia gamma di lingue e script. Attualmente supporta oltre 80 lingue diverse, tra cui arabo, cinese, inglese, francese, tedesco, giapponese, coreano, russo, spagnolo e molte altre. Ciò lo rende uno strumento prezioso per gli sviluppatori che devono lavorare con contenuti multilingue. Oltre alle potenti funzionalità OCR, la libreria include anche una serie di utilità utili per lavorare con immagini e testo. Ad esempio, include strumenti per la preelaborazione delle immagini, come il raddrizzamento e la binarizzazione, nonché strumenti di post-elaborazione per migliorare la precisione dell'output OCR.
PaddleOCR fornisce diversi modelli OCR, ciascuno ottimizzato per diversi casi d'uso. Ad esempio, il modello di rilevamento del testo viene utilizzato per individuare ed estrarre aree di testo da un'immagine, mentre il modello di riconoscimento del testo viene utilizzato per riconoscere il testo effettivo all'interno di tali aree. Esiste anche una funzionalità Model Ensemble che consente agli sviluppatori di combinare più modelli per ottenere una precisione ancora maggiore. Nel complesso, PaddleOCR è una libreria potente e facile da usare per aggiungere funzionalità OCR alle tue applicazioni Python. Il supporto per un'ampia gamma di linguaggi e script, nonché i modelli personalizzabili e gli strumenti di postelaborazione, lo rendono uno strumento prezioso per gli sviluppatori che lavorano con l'OCR.
Iniziare con PaddleOCR
Il modo consigliato per installare PaddleOCR è utilizzare pip. Utilizza il seguente comando per un'installazione fluida
Installa PaddleOCR tramite pip
Installa PaddleOCR tramite pip
pip install paddleocr
Puoi anche installarlo manualmente; scarica i file della versione più recente direttamente dal repository GitHub.
Riconoscimento del testo delle immagini tramite API PaddleOCR
Il riconoscimento del testo delle immagini è il processo di estrazione del testo dalle immagini. È una tecnica utile per varie applicazioni come la scansione di documenti, la digitalizzazione e l'OCR (riconoscimento ottico dei caratteri). L'API OCR (Optical Character Recognition) open source fornisce una serie di modelli OCR all'avanguardia in grado di riconoscere il testo da varie immagini, inclusi documenti scansionati, screenshot e fotografie. La libreria supporta diverse funzionalità importanti relative al riconoscimento del testo dell'immagine come il caricamento di immagini, l'inizializzazione di un modello OCR, l'identificazione dell'area di testo nell'immagine, il riconoscimento del testo dall'immagine, l'estrazione del testo dal risultato e molto altro. L'esempio seguente mostra come riconoscere il testo da un'immagine all'interno delle applicazioni Python.
Esegui il riconoscimento del testo immagine all'interno dei progetti Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Riconoscimento di documenti OCR utilizzando l'API Python
Il riconoscimento dei documenti è stata una delle aree di ricerca più importanti per l'OCR. I documenti vengono utilizzati quasi ogni giorno nella nostra vita. Quando gli sviluppatori di software applicano l'OCR a un documento, è possibile recuperare informazioni importanti, recuperare campi modulo, analizzare il layout, archiviarlo digitalmente e anche leggere vecchi manoscritti. La libreria open source PaddleOCR consente agli sviluppatori di software di caricare vari tipi di documenti, eseguire operazioni OCR e riconoscere ed estrarre testo da essi utilizzando il codice Python. Il riconoscimento del testo è molto accurato e la libreria può facilmente rilevare con precisione caratteri speciali e spazi.
Esegui il riconoscimento dei documenti OCRF utilizzando l'API Python
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Supporto per il riconoscimento delle tabelle all'interno delle app Python
La libreria open source PaddleOCR consente agli sviluppatori di software di riconoscere i dati delle tabelle all'interno delle loro applicazioni Python. Il riconoscimento della tabella contiene principalmente tre modelli, rilevamento del testo a riga singola-DB, riconoscimento del testo a riga singola-CRNN e struttura della tabella, nonché previsione delle coordinate della cella-SLANet. L'esempio seguente mostra come riconoscere l'immagine che contiene la tabella. L'esempio seguente mostra come utilizzare il metodo draw_ocr che accetta l'immagine, i riquadri di delimitazione, i testi, i punteggi e il percorso del file dei caratteri. Restituisce un'immagine con i riquadri di delimitazione e il testo rilevato. Puoi visualizzare l'immagine utilizzando il metodo show.
Carica un'immagine e rileva il testo al suo interno tramite l'API Python
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()