Aspose.OCR Cloud SDK for Python
Beste Python-OCR-API zum Lesen und Extrahieren von Bildtext
Fügen Sie OCR-Funktionalität zu Python-Apps über die OCR-API hinzu. Es ermöglicht das Lesen und Extrahieren von Text aus Bildern, Fotos, Screenshots, gescannten Dokumenten und PDF-Dateien über die Python OCR-Bibliothek.
Aspose.OCR Cloud SDK für Python ist eine fortschrittliche und flexible Lösung zur optischen Zeichenerkennung (OCR), die Softwareentwicklern hilft, OCR-Anwendungen ohne externe Abhängigkeiten zu erstellen. Es ermöglicht Softwareentwicklern, Text aus Bildern, Fotos, Screenshots, gescannten Dokumenten und PDFs in einer großen Anzahl europäischer, kyrillischer und östlicher Schriften zu lesen und zu extrahieren und liefert Ergebnisse in den gängigsten Dokumentformaten. Die API erleichtert Entwicklern das Hinzufügen von OCR-Funktionalität zu fast jedem Gerät oder jeder Plattform, einschließlich Netbooks, Mini-PCs oder sogar Smartphones der Einstiegsklasse.
Das Aspose.OCR Cloud SDK für Python ist unkompliziert und leicht zu handhaben. Es bietet eine breite Palette an Funktionen, die es zu einer idealen OCR-Lösung für Entwickler machen, die mit Python arbeiten, z. B. das Lesen eines gesamten Bildes, das Lesen eines gescannten PDF-Dokuments, das Extrahieren von Text aus einem bestimmten Bereich des Bildes und das Extrahieren von Daten aus einem gescannten oder fotografierten Dokument Empfang, Abrufen von PDF-Erkennungsergebnissen, Extrahieren von Text aus gescannten oder fotografierten Tabellen, Konvertieren der Erkennungsergebnisse in eine natürliche menschliche Stimme und vieles mehr.
Aspose.OCR Cloud SDK für Python basiert auf der Aspose.OCR Cloud API und ist eine cloudbasierte OCR-Engine, die 45 Erkennungssprachen unterstützt, darunter Englisch, Französisch, Deutsch, Spanisch, Chinesisch, Japanisch, Arabisch und viel mehr. Mit dem OCR SDK können Python-Programmierer die OCR-Funktionalität einfach in ihre Python-Anwendungen integrieren, ohne sich um die Komplexität der OCR-Technologie kümmern zu müssen. Das SDK bietet eine einfache und intuitive Benutzeroberfläche, die es Benutzern ermöglicht, Bilder hochzuladen, OCR durchzuführen und Text in nur wenigen Codezeilen abzurufen. Wenn Sie Ihren Python-Anwendungen OCR-Funktionalität hinzufügen müssen, ist das Aspose.OCR Cloud SDK für Python auf jeden Fall einen Blick wert.
Erste Schritte mit Aspose.OCR Cloud SDK für Python
Die empfohlene Methode zur Installation des Aspose.OCR Cloud SDK für Python ist die Verwendung von pip. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.
Installieren Sie das Aspose.OCR Cloud SDK für Python über pip
pip install aspose-ocr-cloud
Sie können das SDK direkt von der Produktseite Aspose.OCR Python Cloud SDK herunterladen
Bilderkennung mit Python-Apps
Aspose.OCR Cloud SDK für Python ermöglicht Softwareentwicklern die Durchführung von OCR-Vorgängen, um eine Bilderkennung in ihren eigenen Python-Anwendungen zu erreichen. Die API ist sehr einfach zu verwenden und die Bilderkennung kann von jeder Plattform mit Internetzugang aus durchgeführt werden. Mit der OCR-REST-API können Sie ganz einfach Bilder zur Erkennung auswählen und senden, Ergebnisse abrufen und sie mit nur wenigen Codezeilen in allen unterstützten Dateiformaten speichern. Das folgende Beispiel zeigt, wie Sie mit Python-Code einen OCR-Vorgang für Bilder durchführen.
Führen Sie OCR für ein Bild in Python Apps durch
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Text aus PDF-Dateien über die Python-API extrahieren
Portable Document Format (PDF) ist eines der weltweit beliebtesten Dateiformate für Geschäftsdokumente und ein 1992 von Adobe entwickeltes Dateiformat zur Präsentation von Dokumenten. Das Aspose.OCR Cloud SDK für Python verfügt über eine sehr leistungsstarke Funktion zum Extrahieren von Text aus PDF-Dateien in Python-Anwendungen. Um die Aufgabe auf einfache Weise zu lösen, müssen Sie die PDF-Datei in den Aspose-Cloudspeicher hochladen und die OCR-Erkennung an der hochgeladenen PDF-Datei durchführen. Das folgende Beispiel zeigt, wie Softwareentwickler mithilfe von Python-Code Text aus einer PDF-Datei extrahieren können.
Wie extrahiere ich Text aus einer PDF-Datei über die Python-API?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Text über die Python-API in Sprache umwandeln
Aspose.OCR Cloud SDK für Python ermöglicht Softwareentwicklern, Text aus Bildern zu konvertieren, ohne Software von Drittanbietern installieren zu müssen. Mithilfe der API können Programmierer die Erkennungsergebnisse in eine natürliche menschliche Stimme umwandeln, die im Hintergrund abgespielt oder heruntergeladen werden kann. Zuerst muss der Benutzer das Bild an den Aspose OCR Cloud-Server senden und daraus Text extrahieren und anschließend den Text mithilfe der Aspose OCR Cloud Text-to-Speech-API in Sprache umwandeln. Nach der erfolgreichen Konvertierung können Sie die Sprachdatei auf der Festplatte speichern.
Wie konvertiere ich Text mithilfe der Python-API in Sprache?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)