Aspose.OCR Cloud SDK for Python
Лучший API Python OCR для чтения и извлечения текста изображений
Добавьте функциональность OCR в приложения Python через API OCR. Он позволяет читать и извлекать текст из изображений, фотографий, снимков экрана, отсканированных документов и файлов PDF с помощью библиотеки Python OCR.
Aspose.OCR Cloud SDK для Python — это расширенное и гибкое решение для оптического распознавания символов (OCR), которое помогает разработчикам программного обеспечения создавать приложения OCR без каких-либо внешних зависимостей. Он позволяет разработчикам программного обеспечения читать и извлекать текст из изображений, фотографий, снимков экрана, отсканированных документов и PDF-файлов в большом количестве европейских, кириллических и восточных алфавитов, возвращая результаты в самых популярных форматах документов. API позволяет разработчикам легко добавлять функции оптического распознавания символов практически на любое устройство или платформу, включая нетбуки, мини-ПК и даже смартфоны начального уровня.
Облачный SDK Aspose.OCR для Python прост и удобен в использовании. Он предоставляет широкий спектр функций, которые делают его идеальным решением оптического распознавания символов для разработчиков, работающих с Python, например, чтение всего изображения, чтение отсканированного PDF-документа, извлечение текста из определенной области изображения, извлечение данных из отсканированного или сфотографированного изображения. квитанция, получение результатов распознавания PDF, извлечение текста из отсканированных или сфотографированных таблиц, преобразование результатов распознавания в естественный человеческий голос и многое другое.
Aspose.OCR Cloud SDK для Python построен на основе Aspose.OCR Cloud API — облачного механизма оптического распознавания символов, поддерживающего 45 языков распознавания, включая английский, французский, немецкий, испанский, китайский, японский, арабский и многое другое. Используя OCR SDK, программисты Python могут легко интегрировать функции OCR в свои приложения Python, не беспокоясь о сложностях технологии OCR. SDK предоставляет простой и интуитивно понятный интерфейс, который позволяет пользователям загружать изображения, выполнять распознавание текста и извлекать текст всего за несколько строк кода. Если вам нужно добавить функциональность OCR в ваши приложения Python, определенно стоит попробовать Aspose.OCR Cloud SDK для Python.
Начало работы с Aspose.OCR Cloud SDK для Python
Рекомендуемый способ установки Aspose.OCR Cloud SDK для Python — использование pip. Пожалуйста, используйте следующую команду для плавной установки.
Установите Aspose.OCR Cloud SDK для Python через pip
pip install aspose-ocr-cloud
Вы можете загрузить SDK непосредственно со страницы Aspose.OCR Python Cloud SDK
Распознавание изображений с помощью приложений Python
Aspose.OCR Cloud SDK для Python позволяет разработчикам программного обеспечения выполнять операции оптического распознавания символов для распознавания изображений в своих собственных приложениях Python. API очень прост в использовании, а распознавание изображений можно выполнять с любой платформы с доступом в Интернет. Вы можете легко использовать OCR REST API для выбора и отправки изображений для распознавания, получения результатов и сохранения их в любых поддерживаемых форматах файлов с помощью всего лишь пары строк кода. В следующем примере показано, как выполнить операцию OCR для изображений с помощью кода Python.
Выполнение оптического распознавания изображения в приложениях Python
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Извлечение текста из PDF-файлов с помощью Python API
Портативный формат документов (PDF) — один из самых популярных в мире форматов файлов деловых документов, разработанный Adobe в 1992 году для представления документов. Aspose.OCR Cloud SDK для Python включает очень мощную функцию для извлечения текста из файлов PDF внутри приложений Python. Чтобы упростить задачу, вам необходимо загрузить PDF-файл в облачное хранилище Aspose и выполнить распознавание OCR загруженного PDF-файла. В следующем примере показано, как разработчики программного обеспечения могут извлекать текст из файла PDF с помощью кода Python.
Как извлечь текст из PDF-файла с помощью Python API?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Преобразование текста в речь через Python API
Aspose.OCR Cloud SDK для Python позволяет разработчикам программного обеспечения преобразовывать текст из изображения без установки какого-либо стороннего программного обеспечения. Используя API, программисты могут преобразовывать результаты распознавания в естественный человеческий голос, который можно воспроизводить в фоновом режиме или загружать. Сначала пользователю необходимо отправить изображение на сервер Aspose OCR Cloud и извлечь из него текст, а затем преобразовать текст в речь с помощью API преобразования текста в речь Aspose OCR Cloud. После успешного преобразования вы можете сохранить речевой файл на диск.
Как преобразовать текст в речь с помощью Python API?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)