API Python open source per integrare funzionalità OCR

Libreria Python open source che consente agli sviluppatori di software di integrare facilmente le funzionalità di riconoscimento ottico dei caratteri (OCR) nelle loro applicazioni.

PaddleOCR è una potente libreria Python open source che consente agli sviluppatori di software di integrare facilmente le funzionalità di riconoscimento ottico dei caratteri (OCR) nelle loro applicazioni Python. Si basa su PaddlePaddle, una piattaforma di deep learning open source e utilizza modelli di deep learning all'avanguardia per ottenere precisione e prestazioni elevate. PaddleOCR semplifica il processo OCR fornendo un'API di alto livello che astrae molti dei dettagli di basso livello, consentendo agli sviluppatori di aggiungere facilmente funzionalità OCR alle loro applicazioni.

PaddleOCR ha fornito supporto completo per un'ampia gamma di lingue e script. Attualmente supporta oltre 80 lingue diverse, tra cui arabo, cinese, inglese, francese, tedesco, giapponese, coreano, russo, spagnolo e molte altre. Ciò lo rende uno strumento prezioso per gli sviluppatori che devono lavorare con contenuti multilingue. Oltre alle potenti funzionalità OCR, la libreria include anche una serie di utilità utili per lavorare con immagini e testo. Ad esempio, include strumenti per la preelaborazione delle immagini, come il raddrizzamento e la binarizzazione, nonché strumenti di post-elaborazione per migliorare la precisione dell'output OCR.

PaddleOCR fornisce diversi modelli OCR, ciascuno ottimizzato per diversi casi d'uso. Ad esempio, il modello di rilevamento del testo viene utilizzato per individuare ed estrarre aree di testo da un'immagine, mentre il modello di riconoscimento del testo viene utilizzato per riconoscere il testo effettivo all'interno di tali aree. Esiste anche una funzionalità Model Ensemble che consente agli sviluppatori di combinare più modelli per ottenere una precisione ancora maggiore. Nel complesso, PaddleOCR è una libreria potente e facile da usare per aggiungere funzionalità OCR alle tue applicazioni Python. Il supporto per un'ampia gamma di linguaggi e script, nonché i modelli personalizzabili e gli strumenti di postelaborazione, lo rendono uno strumento prezioso per gli sviluppatori che lavorano con l'OCR.

In sintesi

Una panoramica delle funzionalità di PaddleOCR.

Panoramica delle funzionalità

Esegui l'OCR
Aggiungi funzionalità OCR
Riconosci il testo dell'immagine
Converti immagini di testo
Testo carattere riconosciuto
Cerca PDF
Altre lingue
Crea app OCR
Salva nel browser
Estrai testo
Supporto multithreading

PaddleOCR

PaddleOCR supporta i formati di file immagine più diffusi elencati di seguito.

Lettore

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scrittore

PNG, JPEG, BMP, TIFF

PaddleOCR

Indipendenza dalla piattaforma

PaddleOCR può funzionare con .NET Framework 4.8 e Python 2.7 e versioni successive.

Python 2.7 e versioni successive.

PaddleOCR

Iniziare con PaddleOCR

Il modo consigliato per installare PaddleOCR è utilizzare pip. Utilizza il seguente comando per un'installazione fluida

Installa PaddleOCR tramite pip

 
Installa PaddleOCR tramite pip
 pip install paddleocr 
Puoi anche installarlo manualmente; scarica i file della versione più recente direttamente dal repository GitHub.

`Riconoscimento del testo delle immagini tramite API PaddleOCR`

Il riconoscimento del testo delle immagini è il processo di estrazione del testo dalle immagini. È una tecnica utile per varie applicazioni come la scansione di documenti, la digitalizzazione e l'OCR (riconoscimento ottico dei caratteri). L'API OCR (Optical Character Recognition) open source fornisce una serie di modelli OCR all'avanguardia in grado di riconoscere il testo da varie immagini, inclusi documenti scansionati, screenshot e fotografie. La libreria supporta diverse funzionalità importanti relative al riconoscimento del testo dell'immagine come il caricamento di immagini, l'inizializzazione di un modello OCR, l'identificazione dell'area di testo nell'immagine, il riconoscimento del testo dall'immagine, l'estrazione del testo dal risultato e molto altro. L'esempio seguente mostra come riconoscere il testo da un'immagine all'interno delle applicazioni Python.

`Esegui il riconoscimento del testo immagine all'interno dei progetti Python`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`Riconoscimento di documenti OCR utilizzando l'API Python`

Il riconoscimento dei documenti è stata una delle aree di ricerca più importanti per l'OCR. I documenti vengono utilizzati quasi ogni giorno nella nostra vita. Quando gli sviluppatori di software applicano l'OCR a un documento, è possibile recuperare informazioni importanti, recuperare campi modulo, analizzare il layout, archiviarlo digitalmente e anche leggere vecchi manoscritti. La libreria open source PaddleOCR consente agli sviluppatori di software di caricare vari tipi di documenti, eseguire operazioni OCR e riconoscere ed estrarre testo da essi utilizzando il codice Python. Il riconoscimento del testo è molto accurato e la libreria può facilmente rilevare con precisione caratteri speciali e spazi.

`Esegui il riconoscimento dei documenti OCRF utilizzando l'API Python`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Supporto per il riconoscimento delle tabelle all'interno delle app Python`

La libreria open source PaddleOCR consente agli sviluppatori di software di riconoscere i dati delle tabelle all'interno delle loro applicazioni Python. Il riconoscimento della tabella contiene principalmente tre modelli, rilevamento del testo a riga singola-DB, riconoscimento del testo a riga singola-CRNN e struttura della tabella, nonché previsione delle coordinate della cella-SLANet. L'esempio seguente mostra come riconoscere l'immagine che contiene la tabella. L'esempio seguente mostra come utilizzare il metodo draw_ocr che accetta l'immagine, i riquadri di delimitazione, i testi, i punteggi e il percorso del file dei caratteri. Restituisce un'immagine con i riquadri di delimitazione e il testo rilevato. Puoi visualizzare l'immagine utilizzando il metodo show.

`Carica un'immagine e rileva il testo al suo interno tramite l'API Python`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()