Aspose.OCR Cloud SDK for Python
Najlepszy interfejs API OCR w języku Python do odczytywania i wyodrębniania tekstu obrazów
Dodaj funkcjonalność OCR do aplikacji w języku Python za pośrednictwem interfejsu API OCR. Umożliwia czytanie i wyodrębnianie tekstu z obrazów, zdjęć, zrzutów ekranu, zeskanowanych dokumentów i plików PDF za pośrednictwem biblioteki Python OCR.
Aspose.OCR Cloud SDK dla Pythona to zaawansowane i elastyczne rozwiązanie do optycznego rozpoznawania znaków (OCR), które pomaga twórcom oprogramowania tworzyć aplikacje OCR bez żadnych zewnętrznych zależności. Umożliwia twórcom oprogramowania odczytywanie i wyodrębnianie tekstu z obrazów, zdjęć, zrzutów ekranu, zeskanowanych dokumentów i plików PDF zapisanych dużą liczbą pism europejskich, cyrylicy i wschodnich, zwracając wyniki w najpopularniejszych formatach dokumentów. Interfejs API ułatwia programistom dodawanie funkcji OCR do niemal każdego urządzenia lub platformy, w tym netbooków, minikomputerów, a nawet smartfonów klasy podstawowej.
Aspose.OCR Cloud SDK dla Pythona jest prosty i łatwy w obsłudze. Zapewnia szeroką gamę funkcji, które czynią go idealnym rozwiązaniem OCR dla programistów pracujących z Pythonem, takich jak czytanie całego obrazu, czytanie zeskanowanego dokumentu PDF, wyodrębnianie tekstu z określonego obszaru obrazu, wyodrębnianie danych ze zeskanowanego lub sfotografowanego paragon, pobieranie wyników rozpoznawania plików PDF, wyodrębnianie tekstu ze zeskanowanych lub fotografowanych tabel, konwertowanie wyników rozpoznawania na naturalny ludzki głos i wiele więcej.
Aspose.OCR Cloud SDK dla Pythona jest zbudowany na bazie Aspose.OCR Cloud API i jest opartym na chmurze silnikiem OCR, który obsługuje 45 języków rozpoznawania, w tym angielski, francuski, niemiecki, hiszpański, chiński, japoński, arabski i wiele więcej. Korzystając z pakietu OCR SDK, programiści języka Python mogą z łatwością zintegrować funkcjonalność OCR ze swoimi aplikacjami w języku Python, nie martwiąc się o złożoność technologii OCR. SDK zapewnia prosty i intuicyjny interfejs, który pozwala użytkownikom przesyłać obrazy, wykonywać OCR i pobierać tekst w zaledwie kilku linijkach kodu. Jeśli chcesz dodać funkcjonalność OCR do swoich aplikacji w języku Python, zdecydowanie warto sprawdzić pakiet Aspose.OCR Cloud SDK dla Pythona.
Pierwsze kroki z Aspose.OCR Cloud SDK dla Pythona
Zalecany sposób instalacji Aspose.OCR Cloud SDK dla Pythona polega na użyciu pip. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.
Zainstaluj Aspose.OCR Cloud SDK dla Pythona za pomocą pip
pip install aspose-ocr-cloud
Możesz pobrać pakiet SDK bezpośrednio ze strony produktu Aspose.OCR Python Cloud SDK
Rozpoznawanie obrazów przy użyciu aplikacji w języku Python
Aspose.OCR Cloud SDK dla Pythona umożliwia twórcom oprogramowania wykonywanie operacji OCR w celu rozpoznawania obrazów we własnych aplikacjach Pythona. Interfejs API jest bardzo łatwy w obsłudze, a rozpoznawanie obrazu można wykonać z dowolnej platformy z dostępem do Internetu. Możesz z łatwością używać interfejsu API OCR REST do wybierania i wysyłania obrazów do rozpoznania, pobierania wyników i przechowywania ich w dowolnych obsługiwanych formatach plików za pomocą zaledwie kilku linijek kodu. Poniższy przykład pokazuje, jak wykonać operację OCR na obrazach przy użyciu kodu Python.
Wykonaj OCR obrazu w aplikacjach Pythona
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Wyodrębnij tekst z plików PDF za pomocą interfejsu API języka Python
Portable Document Format (PDF) to jeden z najpopularniejszych na świecie formatów plików dokumentów biznesowych, opracowany przez firmę Adobe w 1992 r. w celu prezentacji dokumentów. Aspose.OCR Cloud SDK dla Pythona zawiera bardzo zaawansowaną funkcję wyodrębniania tekstu z plików PDF w aplikacjach Pythona. Aby łatwo wykonać to zadanie, musisz przesłać plik PDF do magazynu w chmurze Aspose i przeprowadzić rozpoznawanie OCR na przesłanym pliku PDF. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą wyodrębnić tekst z pliku PDF przy użyciu kodu Python.
Jak wyodrębnić tekst z pliku PDF za pomocą interfejsu API języka Python?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Konwertuj tekst na mowę za pomocą interfejsu API języka Python
Aspose.OCR Cloud SDK dla Pythona umożliwia twórcom oprogramowania konwersję tekstu z obrazu bez instalowania oprogramowania innych firm. Korzystając z API, programiści mogą konwertować wyniki rozpoznawania na naturalny ludzki głos, który można odtwarzać w tle lub pobierać. Najpierw użytkownik musi wysłać obraz na serwer Aspose OCR Cloud i wyodrębnić z niego tekst, a następnie przekonwertować tekst na mowę za pomocą interfejsu API Aspose OCR Cloud Text-to-Speech. Po udanej konwersji możesz zapisać plik mowy na dysku.
Jak przekonwertować tekst na mowę przy użyciu interfejsu API języka Python?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)