Aspose.OCR Cloud SDK for Python

用於讀取和提取圖像文字的最佳 Python OCR API

透過 OCR API 將 OCR 功能新增至 Python 應用程式。它允許透過 Python OCR 庫從圖像、照片、螢幕截圖、掃描文件和 PDF 文件中讀取和提取文字。

適用於 Python 的 Aspose.OCR Cloud SDK 是一種先進且靈活的光學字元辨識 (OCR) 解決方案，可協助軟體開發人員建立 OCR 應用程序，而無需任何外部依賴項。它允許軟體開發人員從大量歐洲、西里爾文和東方文字的圖像、照片、螢幕截圖、掃描文件和 PDF 中讀取和提取文本，並以最受歡迎的文檔格式返回結果。該 API 使開發人員可以輕鬆地將 OCR 功能添加到幾乎任何裝置或平台，包括上網本、迷你 PC，甚至入門級智慧型手機。

適用於 Python 的 Aspose.OCR Cloud SDK 簡單易用。它提供了廣泛的功能，使其成為使用Python 的開發人員的理想OCR 解決方案，例如讀取整個圖像、讀取掃描的PDF 文件、從圖像的特定區域提取文字、從掃描或拍攝的圖像中提取資料收據、取得 PDF 識別結果、從掃描或拍照的表格中提取文字、將識別結果轉換為自然人聲等等。

Aspose.OCR Cloud SDK for Python 建構於Aspose.OCR Cloud API 之上，是一個基於雲端的OCR 引擎，支援45 種識別語言，包括英語、法語、德語、西班牙語、中文、日語、阿拉伯語和還有很多。使用 OCR SDK，Python 程式設計師可以輕鬆地將 OCR 功能整合到他們的 Python 應用程式中，而不必擔心 OCR 技術的複雜性。該 SDK 提供了一個簡單直觀的介面，允許用戶僅使用幾行程式碼即可上傳圖像、執行 OCR 和檢索文字。如果您需要在 Python 應用程式中新增 OCR 功能，則 Aspose.OCR Cloud SDK for Python 絕對值得一試。

概覽

適用於 Python 的 Aspose.OCR Cloud SDK 功能概述。

特色概述

執行 OCR
新增 OCR 功能
辨識圖像文字
轉換文字影像
已辨識的字型文字
搜尋 PDF
27 種辨識語言
建立 OCR 應用
儲存到瀏覽器
擷取文字
多執行緒支援

特色概述

辨識旋轉影像
預處理過濾器
PDF 轉影像
辨識中文字元
偵測流行字體
處理整個影像
旋轉影像支援
批量識別
內建拼字檢查器
拆分 PDF
PDF 到 Excel
PDF 轉 SVG

Aspose.OCR Cloud SDK for Python

API主要支援PDF格式，但可以將PDF文件匯出為多種其他格式。

讀者

PDF, PDF/A, TEX, XPS, SVG

作家

PDF, TXT, PNG, JPEG , PDF/A, DOC, DOCX, TEX, XPS, SVG, XLSX, PPTX

Aspose.OCR Cloud SDK for Python

平台獨立性

適用於 Python 的 Aspose.OCR Cloud SDK 可以與任何基於 Python 的程式語言搭配使用。

Python 4.5 及更高版本。

Aspose.OCR Cloud SDK for Python

開始使用適用於 Python 的 Aspose.OCR Cloud SDK

安裝 Aspose.OCR Cloud SDK for Python 的建議方法是使用 pip。為了順利安裝，請使用以下命令。

透過 pip 安裝 Aspose.OCR Cloud SDK for Python

 pip install aspose-ocr-cloud

您可以直接從Aspose.OCR Python Cloud SDK產品頁面

下載SDK

使用 Python 應用程式進行影像辨識

Aspose.OCR Cloud SDK for Python允許軟體開發人員在自己的Python應用程式中執行OCR操作以實現影像辨識。該 API 非常易於使用，並且可以在任何可存取互聯網的平台上執行圖像識別。您只需幾行程式碼即可輕鬆使用 OCR REST API 選擇和發送圖像進行識別、獲取結果並將其儲存為任何支援的檔案格式。以下範例展示如何使用Python程式碼對影像進行OCR操作。

在 Python 應用程式中對映像執行 OCR

import asposeocrcloud

# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')

# read the image file
with open('image.jpg', 'rb') as image_file:
    image_data = image_file.read()

# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)

# print the extracted text
print(result.text)

透過 Python API 從 PDF 檔案中提取文字

便攜式文件格式（PDF）是世界上最受歡迎的商業文件文件格式之一，是 Adobe 於 1992 年開發的一種用於呈現文件的文件格式。 Aspose.OCR Cloud SDK for Python 包含一個非常強大的功能，可從 Python 應用程式內的 PDF 檔案中提取文字。為了輕鬆完成該任務，您需要將 PDF 檔案上傳到 Aspose 雲端存儲，並對上傳的 PDF 檔案執行 OCR 識別。以下範例展示了軟體開發人員如何使用 Python 程式碼從 PDF 檔案中提取文字。

如何透過Python API從PDF檔案中擷取文字？import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration

configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))

# Upload the PDF file to the Aspose cloud storage

with open('your_pdf_file.pdf', 'rb') as file:
    api.upload_file(path='your_pdf_file.pdf', file=file)

# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')

# Story the recognized text

recognized_text = result['text']
print(recognized_text)

透過 Python API 將文字轉換為語音

適用於 Python 的 Aspose.OCR Cloud SDK 使軟體開發人員能夠從圖像轉換文本，而無需安裝任何第三方軟體。使用API，程式設計師可以將識別結果轉換為可以在背景播放或下載的自然人聲。首先，用戶需要將圖像發送到 Aspose OCR Cloud 伺服器並從中提取文本，然後使用 Aspose OCR Cloud Text-to-Speech API 將文本轉換為語音。成功轉換後，您可以將語音檔案儲存到磁碟。

如何使用 Python API 將文字轉換為語音？ import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi

client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))

# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
    response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)

# Extract the recognized text

text = ''
for result in response.parts:
    for line in result.lines:
        for word in line.words:
            text += word.text + ' '

# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')

# Save the speech file to disk

with open('output.wav', 'wb') as file:
    file.write(response.content)