Aspose.OCR Cloud SDK for Python
Beste Python OCR-API zum Lesen und Extrahieren von Bildtext
Fügen Sie Python-Apps OCR-Funktionalität über die OCR-API hinzu. Es ermöglicht das Lesen und Extrahieren von Text aus Bildern, Fotos, Screenshots, gescannten Dokumenten und PDF-Dateien über die Python OCR-Bibliothek.
Aspose.OCR Cloud SDK für Python ist eine fortschrittliche und flexible Lösung zur optischen Zeichenerkennung (OCR), mit der Softwareentwickler OCR-Anwendungen ohne externe Abhängigkeiten erstellen können. Es ermöglicht Softwareentwicklern, Text aus Bildern, Fotos, Screenshots, gescannten Dokumenten und PDFs in einer großen Anzahl europäischer, kyrillischer und östlicher Schriften zu lesen und zu extrahieren und Ergebnisse in den gängigsten Dokumentformaten zurückzugeben. Die API erleichtert Entwicklern das Hinzufügen von OCR-Funktionen zu nahezu jedem Gerät oder jeder Plattform, einschließlich Netbooks, Mini-PCs oder sogar Smartphones der Einstiegsklasse.
Das Aspose.OCR Cloud SDK für Python ist unkompliziert und einfach zu handhaben. Es bietet eine breite Palette von Funktionen, die es zu einer idealen OCR-Lösung für Entwickler machen, die mit Python arbeiten, wie z. B. das Lesen eines gesamten Bildes, das Lesen eines gescannten PDF-Dokuments, das Extrahieren von Text aus einem bestimmten Bereich des Bildes, das Extrahieren von Daten aus einer gescannten oder fotografierten Quittung, das Abrufen von PDF-Erkennungsergebnissen, das Extrahieren von Text aus gescannten oder fotografierten Tabellen, das Konvertieren der Erkennungsergebnisse in eine natürliche menschliche Stimme und vieles mehr.
Aspose.OCR Cloud SDK für Python basiert auf der Aspose.OCR Cloud API und ist eine Cloud-basierte OCR-Engine, die 45 Erkennungssprachen unterstützt, darunter Englisch, Französisch, Deutsch, Spanisch, Chinesisch, Japanisch, Arabisch und viele mehr. Mit dem OCR SDK können Python-Programmierer OCR-Funktionen problemlos in ihre Python-Anwendungen integrieren, ohne sich um die Komplexität der OCR-Technologie kümmern zu müssen. Das SDK bietet eine einfache und intuitive Benutzeroberfläche, mit der Benutzer Bilder hochladen, OCR durchführen und Text in nur wenigen Codezeilen abrufen können. Wenn Sie Ihren Python-Anwendungen OCR-Funktionalität hinzufügen müssen, lohnt es sich auf jeden Fall, einen Blick auf das Aspose.OCR Cloud SDK für Python zu werfen.
Erste Schritte mit Aspose.OCR Cloud SDK für Python
Die empfohlene Methode zur Installation von Aspose.OCR Cloud SDK für Python ist die Verwendung von pip. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.
Installieren Sie Aspose.OCR Cloud SDK für Python über pip
pip install aspose-ocr-cloud
Sie können das SDK direkt von der Produktseite des Aspose.OCR Python Cloud SDK herunterladen
Bilderkennung mit Python-Apps
Mit Aspose.OCR Cloud SDK für Python können Softwareentwickler OCR-Operationen durchführen, um Bilderkennung in ihren eigenen Python-Anwendungen zu erreichen. Die API ist sehr einfach zu verwenden und die Bilderkennung kann von jeder Plattform mit Internetzugang aus durchgeführt werden. Sie können die OCR REST API ganz einfach verwenden, um Bilder zur Erkennung auszuwählen und zu senden, Ergebnisse abzurufen und sie mit nur ein paar Codezeilen in allen unterstützten Dateiformaten zu speichern. Das folgende Beispiel zeigt, wie Sie OCR-Operationen an Bildern mit Python-Code durchführen.
Führen Sie OCR auf einem Bild in Python-Apps durch
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Text aus PDF-Dateien über die Python-API extrahieren
Portable Document Format (PDF) ist eines der weltweit beliebtesten Dateiformate für Geschäftsdokumente und wurde 1992 von Adobe zur Präsentation von Dokumenten entwickelt. Aspose.OCR Cloud SDK für Python enthält eine sehr leistungsstarke Funktion zum Extrahieren von Text aus PDF-Dateien in Python-Anwendungen. Um die Aufgabe auf einfache Weise zu erledigen, müssen Sie die PDF-Datei in den Aspose-Cloud-Speicher hochladen und die OCR-Erkennung für die hochgeladene PDF-Datei durchführen. Das folgende Beispiel zeigt, wie Softwareentwickler mit Python-Code Text aus einer PDF-Datei extrahieren können.
Wie extrahiere ich Text aus einer PDF-Datei über die Python-API?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Text in Sprache umwandeln über Python-API
Aspose.OCR Cloud SDK für Python ermöglicht Softwareentwicklern, Text aus Bildern umzuwandeln, ohne Software von Drittanbietern installieren zu müssen. Mithilfe der API können Programmierer die Erkennungsergebnisse in eine natürliche menschliche Stimme umwandeln, die im Hintergrund abgespielt oder heruntergeladen werden kann. Zuerst muss der Benutzer das Bild an den Aspose OCR Cloud-Server senden und Text daraus extrahieren und anschließend den Text mithilfe der Aspose OCR Cloud Text-to-Speech-API in Sprache umwandeln. Nach der erfolgreichen Konvertierung können Sie die Sprachdatei auf der Festplatte speichern.
Wie konvertiere ich Text mit der Python-API in Sprache?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)