API Python Open Source pour intégrer les fonctionnalités OCR

Bibliothèque Python Open Source qui permet aux développeurs de logiciels d'intégrer facilement des fonctionnalités de reconnaissance optique de caractères (OCR) dans leurs applications.

PaddleOCR est une puissante bibliothèque Python open source qui permet aux développeurs de logiciels d'intégrer facilement des fonctionnalités de reconnaissance optique de caractères (OCR) dans leurs applications Python. Il est construit sur PaddlePaddle, une plate-forme d'apprentissage en profondeur open source, et utilise des modèles d'apprentissage en profondeur de pointe pour atteindre une précision et des performances élevées. PaddleOCR simplifie le processus OCR en fournissant une API de haut niveau qui élimine de nombreux détails de bas niveau, permettant ainsi aux développeurs d'ajouter facilement des fonctionnalités OCR à leurs applications.

PaddleOCR offre une prise en charge complète d'un large éventail de langages et de scripts. Il prend actuellement en charge plus de 80 langues différentes, dont l'arabe, le chinois, l'anglais, le français, l'allemand, le japonais, le coréen, le russe, l'espagnol et bien d'autres. Cela en fait un outil précieux pour les développeurs qui doivent travailler avec du contenu multilingue. En plus de ses puissantes capacités OCR, la bibliothèque comprend également un certain nombre d'utilitaires utiles pour travailler avec des images et du texte. Par exemple, il comprend des outils de prétraitement d'image, tels que le redressement et la binarisation, ainsi que des outils de post-traitement pour améliorer la précision de la sortie OCR.

PaddleOCR propose plusieurs modèles OCR différents, chacun optimisé pour différents cas d'utilisation. Par exemple, le modèle de détection de texte est utilisé pour localiser et extraire des zones de texte d'une image, tandis que le modèle de reconnaissance de texte est utilisé pour reconnaître le texte réel dans ces zones. Il existe également une fonctionnalité Model Ensemble qui permet aux développeurs de combiner plusieurs modèles pour obtenir une précision encore plus élevée. Dans l'ensemble, PaddleOCR est une bibliothèque puissante et facile à utiliser pour ajouter des fonctionnalités OCR à vos applications Python. Sa prise en charge d'un large éventail de langages et de scripts, ainsi que ses modèles personnalisables et ses outils de post-traitement, en font un outil précieux pour les développeurs travaillant avec OCR.

En un coup d'oeil

Un aperçu des fonctionnalités de PaddleOCR.

Présentation des fonctionnalités

Effectuer l'OCR
Ajouter des fonctionnalités OCR
Reconnaître le texte de l'image
Convertir des images de texte
Texte de police reconnu
Rechercher un PDF
Autres langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support multithread

PaddleOCR

PaddleOCR prend en charge les formats de fichiers image populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

PaddleOCR

Indépendance de la plateforme

PaddleOCR peut fonctionner avec .NET Framework 4.8 et Python 2.7 et supérieur.

Python 2.7 et versions ultérieures.

PaddleOCR

Premiers pas avec PaddleOCR

La méthode recommandée pour installer PaddleOCR consiste à utiliser pip. Veuillez utiliser la commande suivante pour une installation fluide

Installer PaddleOCR via pip

 
Install PaddleOCR via pip
 pip install paddleocr 
Vous pouvez également l'installer manuellement ; téléchargez les fichiers de la dernière version directement depuis le dépôt GitHub.

`Reconnaissance de texte d'image via l'API PaddleOCR`

La reconnaissance de texte d'image est le processus d'extraction de texte à partir d'images. Il s'agit d'une technique utile pour diverses applications telles que la numérisation de documents, la numérisation et l'OCR (reconnaissance optique de caractères). L'API open source OCR (Optical Character Recognition) fournit un ensemble de modèles OCR de pointe capables de reconnaître le texte de diverses images, y compris des documents numérisés, des captures d'écran et des photographies. La bibliothèque prend en charge plusieurs fonctionnalités importantes liées à la reconnaissance de texte d'image, telles que le chargement d'images, l'initialisation d'un modèle OCR, l'identification d'une région de texte dans l'image, la reconnaissance du texte de l'image, l'extraction de texte du résultat, et bien d'autres. L'exemple suivant montre comment reconnaître le texte d'une image dans les applications Python.

`Effectuer la reconnaissance de texte d'image dans des projets Python`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`Reconnaissance de documents OCR à l'aide de l'API Python`

La reconnaissance de documents est l'un des principaux domaines de recherche en matière d'OCR. Les documents sont utilisés presque tous les jours dans notre vie. Lorsque les développeurs de logiciels appliquent l'OCR à un document, ils peuvent récupérer des informations importantes, récupérer des champs de formulaire, analyser la mise en page, stocker numériquement et également lire d'anciens manuscrits. La bibliothèque open source PaddleOCR permet aux développeurs de logiciels de charger différents types de documents, d'effectuer des opérations OCR et de reconnaître et d'en extraire du texte à l'aide du code Python. La reconnaissance de texte est très précise et la bibliothèque peut facilement détecter avec précision les caractères spéciaux et les espaces.

`Effectuer la reconnaissance de documents OCRF à l'aide de l'API Python`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Prise en charge de la reconnaissance de tables dans les applications Python`

La bibliothèque open source PaddleOCR permet aux développeurs de logiciels de reconnaître les données des tables dans leurs applications Python. La reconnaissance de table contient principalement trois modèles, la détection de texte sur une seule ligne-DB, la reconnaissance de texte sur une seule ligne-CRNN et la structure de table ainsi que la prédiction des coordonnées de cellule-SLANet. L'exemple suivant montre comment reconnaître l'image qui contient le tableau. L'exemple suivant montre comment utiliser la méthode draw_ocr qui prend en compte l'image, les cadres de délimitation, les textes, les partitions et le chemin d'accès au fichier de police. Il renvoie une image avec les cadres de délimitation et le texte détecté. Vous pouvez afficher l'image en utilisant la méthode show.

`Charger une image et détecter le texte qu'elle contient via l'API Python`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()