1. Các sản phẩm
  2.   OCR
  3.   Python
  4.   Aspose.OCR Cloud SDK for Python

Aspose.OCR Cloud SDK for Python

 
 

API OCR Python tốt nhất để đọc và trích xuất hình ảnh văn bản

Thêm chức năng OCR vào ứng dụng Python thông qua OCR API. Cho phép đọc và trích xuất văn bản từ hình ảnh, ảnh chụp màn hình, tài liệu được quét và tệp PDF thông qua thư viện Python OCR.

Aspose.OCR Cloud SDK for Python là giải pháp nhận dạng ký tự quang học (OCR) tiên tiến và linh hoạt giúp các nhà phát triển phần mềm tạo ứng dụng OCR mà không cần bất kỳ phụ thuộc bên ngoài nào. Nó cho phép các nhà phát triển phần mềm đọc và trích xuất văn bản từ hình ảnh, ảnh, ảnh chụp màn hình, tài liệu được quét và PDF bằng nhiều ký tự châu Âu, Kirin và phương Đông, trả về kết quả ở các định dạng tài liệu phổ biến nhất. API giúp các nhà phát triển dễ dàng thêm chức năng OCR vào hầu hết mọi thiết bị hoặc nền tảng, bao gồm netbook, máy tính mini hoặc thậm chí là điện thoại thông minh cấp thấp.

Aspose.OCR Cloud SDK for Python rất đơn giản và dễ sử dụng. Nó cung cấp nhiều tính năng giúp nó trở thành giải pháp OCR lý tưởng cho các nhà phát triển làm việc với Python, chẳng hạn như đọc toàn bộ hình ảnh, đọc tài liệu PDF được quét, trích xuất văn bản từ một vùng cụ thể của hình ảnh, trích xuất dữ liệu từ biên lai được quét hoặc chụp ảnh, tìm kiếm kết quả nhận dạng PDF, trích xuất văn bản từ các bảng được quét hoặc chụp ảnh, chuyển đổi kết quả nhận dạng thành giọng nói tự nhiên của con người và nhiều tính năng khác nữa.

Aspose.OCR Cloud SDK cho Python được xây dựng dựa trên Aspose.OCR Cloud API, là một công cụ OCR dựa trên đám mây hỗ trợ 45 ngôn ngữ nhận dạng bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Trung, tiếng Nhật, tiếng Ả Rập và nhiều ngôn ngữ khác nữa. Sử dụng OCR SDK, các lập trình viên Python có thể dễ dàng tích hợp chức năng OCR vào các ứng dụng Python của họ mà không cần phải lo lắng về sự phức tạp của công nghệ OCR. SDK cung cấp một giao diện đơn giản và trực quan cho phép người dùng tải lên hình ảnh, thực hiện OCR và truy xuất văn bản chỉ trong một vài dòng mã. Nếu bạn cần thêm chức năng OCR vào các ứng dụng Python của mình, thì Aspose.OCR Cloud SDK cho Python chắc chắn đáng để xem xét.

Previous Next

Bắt đầu với Aspose.OCR Cloud SDK cho Python

Cách được khuyến nghị để cài đặt Aspose.OCR Cloud SDK cho Python là sử dụng pip. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ.

Cài đặt Aspose.OCR Cloud SDK cho Python qua pip

 pip install aspose-ocr-cloud

Bạn có thể tải xuống SDK trực tiếp từ trang sản phẩm Aspose.OCR Python Cloud SDK

Nhận dạng hình ảnh bằng ứng dụng Python

Aspose.OCR Cloud SDK cho Python cho phép các nhà phát triển phần mềm thực hiện thao tác OCR để nhận dạng hình ảnh bên trong các ứng dụng Python của riêng họ. API rất dễ sử dụng và có thể thực hiện nhận dạng hình ảnh từ bất kỳ nền tảng nào có kết nối Internet. Bạn có thể dễ dàng sử dụng OCR REST API để chọn và gửi hình ảnh để nhận dạng, lấy kết quả và lưu trữ ở bất kỳ định dạng tệp nào được hỗ trợ chỉ bằng một vài dòng mã. Ví dụ sau đây cho thấy cách thực hiện thao tác OCR trên hình ảnh bằng mã Python.

Thực hiện OCR trên hình ảnh bên trong Ứng dụng Python

import asposeocrcloud

# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')

# read the image file
with open('image.jpg', 'rb') as image_file:
    image_data = image_file.read()

# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)

# print the extracted text
print(result.text)

Trích xuất văn bản từ tệp PDF thông qua API Python

Định dạng tài liệu di động (PDF) là một trong những định dạng tệp tài liệu kinh doanh phổ biến nhất thế giới và là định dạng tệp do Adobe phát triển vào năm 1992 để trình bày tài liệu. Aspose.OCR Cloud SDK dành cho Python đã bao gồm một tính năng rất mạnh mẽ để trích xuất văn bản từ tệp PDF bên trong các ứng dụng Python. Để thực hiện nhiệm vụ một cách dễ dàng, bạn cần tải tệp PDF lên bộ lưu trữ đám mây Aspose và thực hiện nhận dạng OCR trên tệp PDF đã tải lên. Ví dụ sau đây cho thấy cách các nhà phát triển phần mềm có thể trích xuất văn bản từ tệp PDF bằng mã Python.

Làm thế nào để trích xuất văn bản từ tệp PDF thông qua API Python?

import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration

configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))

# Upload the PDF file to the Aspose cloud storage

with open('your_pdf_file.pdf', 'rb') as file:
    api.upload_file(path='your_pdf_file.pdf', file=file)

# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')

# Story the recognized text

recognized_text = result['text']
print(recognized_text)

Chuyển đổi văn bản thành giọng nói thông qua API Python

Aspose.OCR Cloud SDK cho Python cho phép các nhà phát triển phần mềm chuyển đổi văn bản từ hình ảnh mà không cần cài đặt bất kỳ phần mềm của bên thứ 3 nào. Sử dụng API, các lập trình viên có thể chuyển đổi kết quả nhận dạng thành giọng nói tự nhiên của con người có thể phát ở chế độ nền hoặc tải xuống. Đầu tiên, người dùng cần gửi hình ảnh đến máy chủ Aspose OCR Cloud và trích xuất văn bản từ đó, sau đó chuyển đổi văn bản thành giọng nói bằng API Aspose OCR Cloud Text-to-Speech. Sau khi chuyển đổi thành công, bạn có thể lưu tệp giọng nói vào đĩa.

Làm thế nào để chuyển đổi văn bản thành giọng nói bằng Python API?

 import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi

client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))

# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
    response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)

# Extract the recognized text

text = ''
for result in response.parts:
    for line in result.lines:
        for word in line.words:
            text += word.text + ' '

# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')

# Save the speech file to disk

with open('output.wav', 'wb') as file:
    file.write(response.content)

 Tiếng Việt