Aspose.OCR Cloud SDK for Python
Nejlepší Python OCR API pro čtení a extrahování textu obrázků
Přidejte funkci OCR do aplikací Python prostřednictvím rozhraní OCR API. Umožňuje číst a extrahovat text z obrázků, fotografií, snímků obrazovky, naskenovaných dokumentů a souborů PDF prostřednictvím knihovny OCR Python.
Aspose.OCR Cloud SDK pro Python je pokročilé a flexibilní řešení pro optické rozpoznávání znaků (OCR), které pomáhá vývojářům softwaru vytvářet aplikace OCR bez jakýchkoli externích závislostí. Umožňuje vývojářům softwaru číst a extrahovat text z obrázků, fotografií, snímků obrazovky, naskenovaných dokumentů a souborů PDF ve velkém počtu evropských, cyrilických a východních písem a vracet výsledky v nejoblíbenějších formátech dokumentů. Rozhraní API usnadňuje vývojářům přidávat funkce OCR do téměř jakéhokoli zařízení nebo platformy, včetně netbooků, mini počítačů nebo dokonce chytrých telefonů základní úrovně.
Sada Aspose.OCR Cloud SDK pro Python je přímočará a snadno se s ní manipuluje. Poskytuje širokou škálu funkcí, které z něj dělají ideální OCR řešení pro vývojáře pracující s Pythonem, jako je čtení celého obrázku, čtení naskenovaného PDF dokumentu, extrahování textu z konkrétní oblasti obrázku, extrahování dat z naskenovaného nebo fotografovaného potvrzení, načítání výsledků rozpoznávání PDF, extrahování textu z naskenovaných nebo vyfotografovaných tabulek, převod výsledků rozpoznávání na přirozený lidský hlas a mnoho dalších.
Aspose.OCR Cloud SDK pro Python je postavena na rozhraní Aspose.OCR Cloud API, je cloudový OCR engine, který podporuje 45 rozpoznávacích jazyků včetně angličtiny, francouzštiny, němčiny, španělštiny, čínštiny, japonštiny, arabštiny a mnoho dalších. Pomocí OCR SDK mohou programátoři Pythonu snadno integrovat funkce OCR do svých aplikací Python, aniž by se museli starat o složitost technologie OCR. SDK poskytuje jednoduché a intuitivní rozhraní, které uživatelům umožňuje nahrávat obrázky, provádět OCR a načítat text v několika řádcích kódu. Pokud potřebujete do svých aplikací v Pythonu přidat funkci OCR, rozhodně stojí za vyzkoušení sada Aspose.OCR Cloud SDK pro Python.
Začínáme s Aspose.OCR Cloud SDK pro Python
Doporučený způsob instalace Aspose.OCR Cloud SDK pro Python je použití pip. Pro bezproblémovou instalaci použijte prosím následující příkaz.
Nainstalujte Aspose.OCR Cloud SDK pro Python přes pip
pip install aspose-ocr-cloud
Sadu SDK si můžete stáhnout přímo ze stránky produktu Aspose.OCR Python Cloud SDK
Rozpoznávání obrázků pomocí aplikací Python
Aspose.OCR Cloud SDK pro Python umožňuje vývojářům softwaru provádět operace OCR k dosažení rozpoznávání obrázků v jejich vlastních aplikacích Python. API se velmi snadno používá a rozpoznávání obrázků lze provádět z jakékoli platformy s přístupem na internet. Pomocí rozhraní OCR REST API můžete snadno vybrat a odeslat obrázky k rozpoznání, načíst výsledky a uložit je v libovolném podporovaném formátu souborů pomocí pouhých několika řádků kódu. Následující příklad ukazuje, jak provést operaci OCR na obrázcích pomocí kódu Python.
Proveďte OCR na obrázku v Python Apps
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Extrahujte text ze souborů PDF prostřednictvím rozhraní Python API
Portable Document Format (PDF) je jedním z celosvětově nejoblíbenějších formátů souborů obchodních dokumentů a je to formát souboru vyvinutý společností Adobe v roce 1992 k prezentaci dokumentů. Aspose.OCR Cloud SDK pro Python obsahuje velmi výkonnou funkci pro extrahování textu ze souborů PDF v aplikacích Python. Chcete-li úkol snadno splnit, musíte nahrát soubor PDF do cloudového úložiště Aspose a provést rozpoznání OCR na nahraném souboru PDF. Následující příklad ukazuje, jak mohou vývojáři softwaru extrahovat text ze souboru PDF pomocí kódu Python.
Jak extrahovat text ze souboru PDF přes Python API?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Převod textu na řeč prostřednictvím rozhraní Python API
Aspose.OCR Cloud SDK pro Python umožňuje vývojářům softwaru převádět text z obrázku bez instalace jakéhokoli softwaru třetí strany. Pomocí API mohou programátoři převést výsledky rozpoznávání do přirozeného lidského hlasu, který lze přehrát na pozadí nebo stáhnout. První uživatel potřebuje odeslat obrázek na server Aspose OCR Cloud a extrahovat z něj text a poté jej převést na řeč pomocí rozhraní Aspose OCR Cloud Text-to-Speech API. Po úspěšné konverzi můžete uložit soubor řeči na disk.
Jak převést text na řeč pomocí Python API?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)