Aspose.OCR Cloud SDK for Python
画像テキストの読み取りと抽出に最適な Python OCR API
OCR API を介して Python アプリに OCR 機能を追加します。 Python OCR ライブラリを介して、画像、写真、スクリーンショット、スキャンしたドキュメント、PDF ファイルからテキストを読み取り、抽出することができます。
Aspose.OCR Cloud SDK for Python は、ソフトウェア開発者が外部に依存することなく OCR アプリケーションを作成できるようにする、高度で柔軟な光学式文字認識 (OCR) ソリューションです。 これにより、ソフトウェア開発者は、画像、写真、スクリーンショット、スキャンされたドキュメント、および多数のヨーロッパ文字、キリル文字、東部文字の PDF からテキストを読み取り、抽出し、最も一般的なドキュメント形式で結果を返すことができます。 この API を使用すると、開発者は、ネットブック、小型 PC、さらにはエントリーレベルのスマートフォンなど、ほぼすべてのデバイスやプラットフォームに OCR 機能を簡単に追加できます。
Aspose.OCR Cloud SDK for Python は単純で扱いやすいです。 画像全体の読み取り、スキャンされた PDF ドキュメントの読み取り、画像の特定の領域からのテキストの抽出、スキャンまたは写真からのデータの抽出など、Python を使用する開発者にとって理想的な OCR ソリューションとなる幅広い機能を提供します。 領収書、PDF 認識結果の取得、スキャンまたは写真撮影された表からのテキストの抽出、認識結果の自然な人間の声への変換など。
Aspose.OCR Cloud SDK for Python は、Aspose.OCR Cloud API 上に構築されており、英語、フランス語、ドイツ語、スペイン語、中国語、日本語、アラビア語、およびアラビア語を含む 45 の認識言語をサポートするクラウドベースの OCR エンジンです。 もっとたくさん。 OCR SDK を使用すると、Python プログラマは、OCR テクノロジの複雑さを気にすることなく、OCR 機能を Python アプリケーションに簡単に統合できます。 SDK は、ユーザーがわずか数行のコードで画像のアップロード、OCR の実行、テキストの取得を可能にするシンプルで直感的なインターフェイスを提供します。 Python アプリケーションに OCR 機能を追加する必要がある場合は、Aspose.OCR Cloud SDK for Python をチェックしてみる価値があります。
Aspose.OCR Cloud SDK for Python のスタートガイド
Aspose.OCR Cloud SDK for Python をインストールする推奨方法は、pip を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。
pip 経由で Aspose.OCR Cloud SDK for Python をインストールします
pip install aspose-ocr-cloud
SDK は、Aspose.OCR Python Cloud SDK 製品ページから直接ダウンロードできます。
Python アプリを使用した画像認識
Aspose.OCR Cloud SDK for Python を使用すると、ソフトウェア開発者は OCR 操作を実行して、独自の Python アプリケーション内で画像認識を実現できます。 API は非常に使いやすく、インターネットにアクセスできる任意のプラットフォームから画像認識を実行できます。 OCR REST API を使用すると、わずか数行のコードで、認識する画像を選択して送信し、結果を取得して、サポートされているファイル形式で保存することが簡単にできます。 次の例は、Python コードを使用して画像に対して OCR 操作を実行する方法を示しています。
Python アプリ内の画像に対して OCR を実行する
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Python API 経由で PDF ファイルからテキストを抽出する
Portable Document Format (PDF) は、世界で最も一般的なビジネス ドキュメント ファイル形式の 1 つで、ドキュメントを表示するために 1992 年に Adobe によって開発されたファイル形式です。 Aspose.OCR Cloud SDK for Python には、Python アプリケーション内の PDF ファイルからテキストを抽出するための非常に強力な機能が含まれています。 このタスクを簡単な方法で達成するには、PDF ファイルを Aspose クラウド ストレージにアップロードし、アップロードされた PDF ファイルに対して OCR 認識を実行する必要があります。 次の例は、ソフトウェア開発者が Python コードを使用して PDF ファイルからテキストを抽出する方法を示しています。
Python API 経由で PDF ファイルからテキストを抽出する方法
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Python API 経由でテキストを音声に変換
Aspose.OCR Cloud SDK for Python を使用すると、ソフトウェア開発者はサードパーティ ソフトウェアをインストールせずに画像からテキストを変換できます。 API を使用すると、プログラマーは認識結果をバックグラウンドで再生したりダウンロードしたりできる自然な人間の声に変換できます。 まずユーザーは、画像を Aspose OCR Cloud サーバーに送信し、そこからテキストを抽出し、その後、Aspose OCR Cloud Text-to-Speech API を使用してテキストを音声に変換する必要があります。 変換が成功したら、音声ファイルをディスクに保存できます。
Python API を使用してテキストを音声に変換する方法
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)