1. Produkte
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

Open-Source-Python-API zur Integration von OCR-Funktionen

Open-Source-Python-Bibliothek, die es Softwareentwicklern ermöglicht, Funktionen zur optischen Zeichenerkennung (OCR) einfach in ihre Anwendungen zu integrieren.

PaddleOCR ist eine leistungsstarke Open-Source-Python-Bibliothek, die es Softwareentwicklern ermöglicht, Funktionen zur optischen Zeichenerkennung (OCR) einfach in ihre Python-Anwendungen zu integrieren. Es basiert auf PaddlePaddle, einer Open-Source-Deep-Learning-Plattform, und nutzt modernste Deep-Learning-Modelle, um eine hohe Genauigkeit und Leistung zu erreichen. PaddleOCR vereinfacht den OCR-Prozess, indem es eine High-Level-API bereitstellt, die viele der Low-Level-Details abstrahiert und es Entwicklern so erleichtert, ihren Anwendungen OCR-Funktionen hinzuzufügen.

PaddleOCR bietet vollständige Unterstützung für eine Vielzahl von Sprachen und Skripten. Derzeit werden über 80 verschiedene Sprachen unterstützt, darunter Arabisch, Chinesisch, Englisch, Französisch, Deutsch, Japanisch, Koreanisch, Russisch, Spanisch und viele andere. Dies macht es zu einem wertvollen Werkzeug für Entwickler, die mit mehrsprachigen Inhalten arbeiten müssen. Zusätzlich zu den leistungsstarken OCR-Funktionen enthält die Bibliothek auch eine Reihe nützlicher Dienstprogramme für die Arbeit mit Bildern und Text. Es umfasst beispielsweise Werkzeuge zur Bildvorverarbeitung, wie Entzerrung und Binärisierung, sowie Nachbearbeitungswerkzeuge zur Verbesserung der Genauigkeit der OCR-Ausgabe.

PaddleOCR bietet mehrere verschiedene OCR-Modelle, die jeweils für unterschiedliche Anwendungsfälle optimiert sind. Beispielsweise wird das Texterkennungsmodell verwendet, um Textbereiche aus einem Bild zu lokalisieren und zu extrahieren, während das Texterkennungsmodell verwendet wird, um den tatsächlichen Text innerhalb dieser Bereiche zu erkennen. Es gibt auch eine Model Ensemble-Funktion, die es Entwicklern ermöglicht, mehrere Modelle zu kombinieren, um eine noch höhere Genauigkeit zu erreichen. Insgesamt ist PaddleOCR eine leistungsstarke und benutzerfreundliche Bibliothek zum Hinzufügen von OCR-Funktionen zu Ihren Python-Anwendungen. Seine Unterstützung für eine Vielzahl von Sprachen und Skripten sowie seine anpassbaren Modelle und Nachbearbeitungstools machen es zu einem wertvollen Werkzeug für Entwickler, die mit OCR arbeiten.

Previous Next

Erste Schritte mit PaddleOCR

Die empfohlene Methode zur Installation von PaddleOCR ist die Verwendung von pip. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl

PaddleOCR über pip installieren

 

PaddleOCR über pip installieren

 pip install paddleocr 

Sie können es auch manuell installieren; Laden Sie die neuesten Versionsdateien direkt aus dem GitHub-Repository herunter.

Bildtexterkennung über die PaddleOCR-API

Bildtexterkennung ist der Prozess des Extrahierens von Text aus Bildern. Es handelt sich um eine nützliche Technik für verschiedene Anwendungen wie das Scannen von Dokumenten, die Digitalisierung und OCR (optische Zeichenerkennung). Die Open-Source-OCR-API (Optical Character Recognition) bietet eine Reihe hochmoderner OCR-Modelle, die Text aus verschiedenen Bildern erkennen können, einschließlich gescannter Dokumente, Screenshots und Fotos. Die Bibliothek unterstützt mehrere wichtige Funktionen im Zusammenhang mit der Bildtexterkennung, wie das Laden von Bildern, das Initialisieren eines OCR-Modells, das Identifizieren von Textbereichen im Bild, das Erkennen von Text aus dem Bild, das Extrahieren von Text aus dem Ergebnis und vieles mehr. Das folgende Beispiel zeigt, wie man Text aus einem Bild in Python-Anwendungen erkennt.

Führen Sie eine Bildtexterkennung in Python-Projekten durch

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

OCR-Dokumenterkennung mithilfe der Python-API

Dokumentenerkennung ist eines der wichtigsten Forschungsgebiete für OCR. Dokumente werden in unserem Leben fast täglich verwendet. Wenn Softwareentwickler OCR auf ein Dokument anwenden, können damit wichtige Informationen abgerufen, Formularfelder abgerufen, das Layout analysiert, digital gespeichert und auch alte Manuskripte gelesen werden. Mit der Open-Source-Bibliothek PaddleOCR können Softwareentwickler verschiedene Arten von Dokumenten laden, OCR-Vorgänge durchführen und mithilfe von Python-Code Text daraus erkennen und extrahieren. Die Texterkennung ist sehr genau und die Bibliothek kann Sonderzeichen und Leerzeichen problemlos und genau erkennen.

Führen Sie die OCR-DokumenterkennungF mithilfe der Python-API durch

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Unterstützung für Tabellenerkennung in Python-Apps

Die Open-Source-Bibliothek PaddleOCR ermöglicht Softwareentwicklern, Tabellendaten in ihren Python-Anwendungen zu erkennen. Die Tabellenerkennung enthält hauptsächlich drei Modelle: Erkennung von einzeiligem Text (DB), Erkennung von einzeiligem Text (CRNN) und Tabellenstruktur sowie Vorhersage von Zellkoordinaten (SLANet). Das folgende Beispiel zeigt, wie man das Bild erkennt, das die Tabelle enthält. Das folgende Beispiel zeigt, wie die Methode draw_ocr verwendet wird, die das Bild, die Begrenzungsrahmen, die Texte, die Partituren und den Pfad zur Schriftartdatei aufnimmt. Es wird ein Bild mit den Begrenzungsrahmen und dem erkannten Text zurückgegeben. Sie können das Bild mit der Show-Methode anzeigen.

Laden Sie ein Bild und erkennen Sie den darin enthaltenen Text über die Python-API

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Deutsch