Open Source Python API zur Integration von OCR-Funktionen
Open-Source-Python-Bibliothek, die es Softwareentwicklern ermöglicht, Funktionen zur optischen Zeichenerkennung (OCR) problemlos in ihre Anwendungen zu integrieren.
PaddleOCR ist eine leistungsstarke Open-Source-Python-Bibliothek, mit der Softwareentwickler problemlos OCR-Funktionen (Optical Character Recognition) in ihre Python-Anwendungen integrieren können. Sie basiert auf PaddlePaddle, einer Open-Source-Plattform für Deep Learning, und verwendet hochmoderne Deep-Learning-Modelle, um eine hohe Genauigkeit und Leistung zu erzielen. PaddleOCR vereinfacht den OCR-Prozess, indem es eine High-Level-API bereitstellt, die viele der Low-Level-Details abstrahiert, sodass Entwickler ihren Anwendungen problemlos OCR-Funktionen hinzufügen können.
PaddleOCR bietet vollständige Unterstützung für eine breite Palette von Sprachen und Skripten. Derzeit werden über 80 verschiedene Sprachen unterstützt, darunter Arabisch, Chinesisch, Englisch, Französisch, Deutsch, Japanisch, Koreanisch, Russisch, Spanisch und viele andere. Dies macht es zu einem wertvollen Tool für Entwickler, die mit mehrsprachigen Inhalten arbeiten müssen. Zusätzlich zu den leistungsstarken OCR-Funktionen enthält die Bibliothek auch eine Reihe nützlicher Dienstprogramme für die Arbeit mit Bildern und Text. Es enthält beispielsweise Tools zur Bildvorverarbeitung, wie Entzerrung und Binärisierung, sowie Nachbearbeitungstools zur Verbesserung der Genauigkeit der OCR-Ausgabe.
PaddleOCR bietet mehrere verschiedene OCR-Modelle, die jeweils für unterschiedliche Anwendungsfälle optimiert sind. Beispielsweise wird das Texterkennungsmodell verwendet, um Textbereiche in einem Bild zu lokalisieren und zu extrahieren, während das Texterkennungsmodell verwendet wird, um den tatsächlichen Text in diesen Bereichen zu erkennen. Es gibt auch eine Model Ensemble-Funktion, mit der Entwickler mehrere Modelle kombinieren können, um eine noch höhere Genauigkeit zu erzielen. Insgesamt ist PaddleOCR eine leistungsstarke und benutzerfreundliche Bibliothek zum Hinzufügen von OCR-Funktionen zu Ihren Python-Anwendungen. Die Unterstützung für eine breite Palette von Sprachen und Skripten sowie die anpassbaren Modelle und Nachbearbeitungstools machen es zu einem wertvollen Tool für Entwickler, die mit OCR arbeiten.
Erste Schritte mit PaddleOCR
Die empfohlene Methode zur Installation von PaddleOCR ist die Verwendung von pip. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation
PaddleOCR über pip installieren
PaddleOCR über pip installieren
pip install paddleocr
Sie können es auch manuell installieren; laden Sie die neuesten Versionsdateien direkt vom GitHub-Repository herunter.
Bildtexterkennung über die PaddleOCR-API
Bildtexterkennung ist der Prozess des Extrahierens von Text aus Bildern. Es ist eine nützliche Technik für verschiedene Anwendungen wie Dokumentenscannen, Digitalisierung und OCR (Optical Character Recognition). Die Open-Source-OCR-API (Optical Character Recognition) bietet eine Reihe hochmoderner OCR-Modelle, die Text aus verschiedenen Bildern erkennen können, darunter gescannte Dokumente, Screenshots und Fotos. Die Bibliothek unterstützt mehrere wichtige Funktionen im Zusammenhang mit der Bildtexterkennung, wie das Laden von Bildern, Initialisieren eines OCR-Modells, Identifizieren von Textbereichen im Bild, Erkennen von Text aus dem Bild, Extrahieren von Text aus dem Ergebnis und vieles mehr. Das folgende Beispiel zeigt, wie Text aus einem Bild in Python-Anwendungen erkannt wird.
Bildtexterkennung in Python-Projekten durchführen
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-Dokumentenerkennung mit Python-API
Die Dokumentenerkennung ist einer der wichtigsten Forschungsbereiche für OCR. Dokumente werden in unserem Leben fast jeden Tag verwendet. Wenn Softwareentwickler OCR auf ein Dokument anwenden, können wichtige Informationen abgerufen, Formularfelder abgerufen, das Layout analysiert, digital gespeichert und auch alte Manuskripte gelesen werden. Die Open-Source-Bibliothek PaddleOCR ermöglicht es Softwareentwicklern, verschiedene Dokumenttypen zu laden, OCR-Operationen durchzuführen und mit Python-Code Text zu erkennen und daraus zu extrahieren. Die Texterkennung ist sehr genau und die Bibliothek kann Sonderzeichen und Leerzeichen problemlos genau erkennen.
OCR-DokumentenerkennungF mithilfe der Python-API durchführen
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Unterstützung der Tabellenerkennung in Python-Apps
Die Open-Source-Bibliothek PaddleOCR ermöglicht es Softwareentwicklern, Tabellendaten in ihren Python-Anwendungen zu erkennen. Die Tabellenerkennung umfasst hauptsächlich drei Modelle: Erkennung von Einzelzeilentexten – DB, Erkennung von Einzelzeilentexten – CRNN und Tabellenstruktur sowie Vorhersage von Zellkoordinaten – SLANet. Das folgende Beispiel zeigt, wie das Bild erkannt wird, das die Tabelle enthält. Das folgende Beispiel zeigt, wie die Methode draw_ocr verwendet wird, die das Bild, die Begrenzungsrahmen, die Texte, die Punktzahlen und den Pfad zur Schriftartdatei aufnimmt. Sie gibt ein Bild mit den Begrenzungsrahmen und dem erkannten Text zurück. Sie können das Bild mit der Methode show anzeigen.
Laden Sie ein Bild und erkennen Sie darin enthaltenen Text über die Python-API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()