Aspose.OCR Cloud SDK for Python
Το καλύτερο Python OCR API για ανάγνωση και εξαγωγή κειμένου εικόνων
Προσθήκη λειτουργικότητας OCR στις εφαρμογές Python μέσω OCR API. Επιτρέπει την ανάγνωση και την εξαγωγή κειμένου από εικόνες, φωτογραφίες, στιγμιότυπα οθόνης, σαρωμένα έγγραφα και αρχεία PDF μέσω της Python OCR Library.
Το Aspose.OCR Cloud SDK για Python είναι μια προηγμένη και ευέλικτη λύση οπτικής αναγνώρισης χαρακτήρων (OCR) που βοηθά τους προγραμματιστές λογισμικού να δημιουργούν εφαρμογές OCR χωρίς εξωτερικές εξαρτήσεις. Επιτρέπει στους προγραμματιστές λογισμικού να διαβάζουν και να εξάγουν κείμενο από εικόνες, φωτογραφίες, στιγμιότυπα οθόνης, σαρωμένα έγγραφα και PDF σε μεγάλο αριθμό ευρωπαϊκών, κυριλλικών και ανατολικών σεναρίων, επιστρέφοντας αποτελέσματα στις πιο δημοφιλείς μορφές εγγράφων. Το API διευκολύνει τους προγραμματιστές να προσθέσουν λειτουργίες OCR σε σχεδόν οποιαδήποτε συσκευή ή πλατφόρμα, συμπεριλαμβανομένων των netbook, των μίνι υπολογιστών ή ακόμα και των smartphone αρχικού επιπέδου.
Το Aspose.OCR Cloud SDK για Python είναι απλό και εύκολο στη χρήση. Παρέχει ένα ευρύ φάσμα χαρακτηριστικών που το καθιστούν ιδανική λύση OCR για προγραμματιστές που εργάζονται με Python, όπως η ανάγνωση ολόκληρης εικόνας, η ανάγνωση ενός σαρωμένου εγγράφου PDF, η εξαγωγή κειμένου από μια συγκεκριμένη περιοχή της εικόνας, η εξαγωγή δεδομένων από μια σαρωμένη ή φωτογραφημένη παραλαβή, λήψη αποτελεσμάτων αναγνώρισης PDF, εξαγωγή κειμένου από σαρωμένους ή φωτογραφισμένους πίνακες, μετατροπή των αποτελεσμάτων αναγνώρισης σε φυσική ανθρώπινη φωνή και πολλά άλλα.
Το Aspose.OCR Cloud SDK για Python είναι χτισμένο πάνω από το Aspose.OCR Cloud API, είναι μια μηχανή OCR που βασίζεται σε σύννεφο που υποστηρίζει 45 γλώσσες αναγνώρισης, όπως αγγλικά, γαλλικά, γερμανικά, ισπανικά, κινέζικα, ιαπωνικά, αραβικά και πολλά περισσότερα. Χρησιμοποιώντας το OCR SDK, οι προγραμματιστές Python μπορούν εύκολα να ενσωματώσουν τη λειτουργικότητα OCR στις εφαρμογές Python τους χωρίς να χρειάζεται να ανησυχούν για την πολυπλοκότητα της τεχνολογίας OCR. Το SDK παρέχει μια απλή και διαισθητική διεπαφή που επιτρέπει στους χρήστες να ανεβάζουν εικόνες, να εκτελούν OCR και να ανακτούν κείμενο σε λίγες μόνο γραμμές κώδικα. Εάν πρέπει να προσθέσετε λειτουργικότητα OCR στις εφαρμογές σας Python, αξίζει σίγουρα να το ελέγξετε το Aspose.OCR Cloud SDK για Python.
Ξεκινώντας με το Aspose.OCR Cloud SDK για Python
Ο προτεινόμενος τρόπος εγκατάστασης του Aspose.OCR Cloud SDK για Python είναι η χρήση pip. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.
Εγκαταστήστε το Aspose.OCR Cloud SDK για Python μέσω pip
pip install aspose-ocr-cloud
Μπορείτε να κάνετε λήψη του SDK απευθείας από τη σελίδα προϊόντος Aspose.OCR Python Cloud SDK
Αναγνώριση εικόνας με χρήση εφαρμογών Python
Το Aspose.OCR Cloud SDK για Python επιτρέπει στους προγραμματιστές λογισμικού να εκτελούν λειτουργία OCR για να επιτύχουν αναγνώριση εικόνας μέσα στις δικές τους εφαρμογές Python. Το API είναι πολύ εύκολο στη χρήση και η αναγνώριση εικόνας μπορεί να πραγματοποιηθεί από οποιαδήποτε πλατφόρμα με πρόσβαση στο Διαδίκτυο. Μπορείτε εύκολα να χρησιμοποιήσετε το OCR REST API για να επιλέξετε και να στείλετε εικόνες για αναγνώριση, να ανακτήσετε αποτελέσματα και να τις αποθηκεύσετε σε οποιεσδήποτε υποστηριζόμενες μορφές αρχείων με μόνο μερικές γραμμές κώδικα. Το ακόλουθο παράδειγμα δείχνει πώς να εκτελέσετε τη λειτουργία OCR σε εικόνες χρησιμοποιώντας κώδικα Python.
Εκτελέστε OCR σε μια εικόνα εντός των εφαρμογών Python
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Εξαγωγή κειμένου από αρχεία PDF μέσω Python API
Το Portable Document Format (PDF) είναι μια από τις πιο δημοφιλείς μορφές αρχείων επιχειρηματικών εγγράφων στον κόσμο και είναι μια μορφή αρχείου που αναπτύχθηκε από την Adobe το 1992 για την παρουσίαση εγγράφων. Το Aspose.OCR Cloud SDK για Python έχει συμπεριλάβει μια πολύ ισχυρή δυνατότητα εξαγωγής κειμένου από αρχεία PDF μέσα σε εφαρμογές Python. Για να επιτύχετε την εργασία με εύκολο τρόπο, πρέπει να ανεβάσετε το αρχείο PDF στον αποθηκευτικό χώρο Aspose cloud και να εκτελέσετε την αναγνώριση OCR στο μεταφορτωμένο αρχείο PDF. Το παρακάτω παράδειγμα δείχνει πώς οι προγραμματιστές λογισμικού μπορούν να εξαγάγουν κείμενο από ένα αρχείο PDF χρησιμοποιώντας κώδικα Python.
Πώς να εξαγάγετε κείμενο από ένα αρχείο PDF μέσω Python API;
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Μετατροπή κειμένου σε ομιλία μέσω Python API
Το Aspose.OCR Cloud SDK για Python επιτρέπει στους προγραμματιστές λογισμικού να μετατρέπουν κείμενο από εικόνα χωρίς να εγκαταστήσουν λογισμικό τρίτου μέρους. Χρησιμοποιώντας το API, οι προγραμματιστές μπορούν να μετατρέψουν τα αποτελέσματα της αναγνώρισης σε μια φυσική ανθρώπινη φωνή που μπορεί να αναπαραχθεί στο παρασκήνιο ή να γίνει λήψη. Ο πρώτος χρήστης πρέπει να στείλει την εικόνα στον διακομιστή Aspose OCR Cloud και να εξαγάγει κείμενο από αυτόν και στη συνέχεια να μετατρέψει το κείμενο σε ομιλία χρησιμοποιώντας το Aspose OCR Cloud Text-to-Speech API. Μετά την επιτυχή μετατροπή, μπορείτε να αποθηκεύσετε το αρχείο ομιλίας στο δίσκο.
Πώς να μετατρέψετε κείμενο σε ομιλία χρησιμοποιώντας το Python API;
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)