Aspose.OCR Cloud SDK for Python
Bästa Python OCR API för att läsa och extrahera bildtext
Lägg till OCR-funktionalitet till Python-appar via OCR API. Det gör det möjligt att läsa och extrahera text från bilder, foton, skärmdumpar, skannade dokument och PDF-filer via Python OCR Library.
Aspose.OCR Cloud SDK för Python är en avancerad och flexibel lösning för optisk teckenigenkänning (OCR) som hjälper mjukvaruutvecklare att skapa OCR-applikationer utan några externa beroenden. Det tillåter programutvecklare att läsa och extrahera text från bilder, foton, skärmdumpar, skannade dokument och PDF-filer i ett stort antal europeiska, kyrilliska och österländska skript, vilket ger resultat i de mest populära dokumentformaten. API:et gör det enkelt för utvecklare att lägga till OCR-funktioner till nästan vilken enhet eller plattform som helst, inklusive netbooks, mini-datorer eller till och med smarttelefoner på nybörjarnivå.
Aspose.OCR Cloud SDK för Python är enkel och lätt att hantera. Den tillhandahåller ett brett utbud av funktioner som gör det till en idealisk OCR-lösning för utvecklare som arbetar med Python, som att läsa en hel bild, läsa ett skannat PDF-dokument, extrahera text från en specifik del av bilden, extrahera data från en skannad eller fotograferad kvitto, hämta PDF-igenkänningsresultat, extrahera text från skannade eller fotograferade tabeller, konvertera igenkänningsresultaten till en naturlig mänsklig röst och mycket mer.
Aspose.OCR Cloud SDK för Python är byggt ovanpå Aspose.OCR Cloud API, är en molnbaserad OCR-motor som stöder 45 igenkänningsspråk inklusive engelska, franska, tyska, spanska, kinesiska, japanska, arabiska och många fler. Genom att använda OCR SDK kan Python-programmerare enkelt integrera OCR-funktionalitet i sina Python-applikationer utan att behöva oroa sig för OCR-teknikens komplexitet. SDK tillhandahåller ett enkelt och intuitivt gränssnitt som tillåter användare att ladda upp bilder, utföra OCR och hämta text på bara några rader kod. Om du behöver lägga till OCR-funktionalitet till dina Python-applikationer är Aspose.OCR Cloud SDK för Python definitivt värt att kolla in.
Komma igång med Aspose.OCR Cloud SDK för Python
Det rekommenderade sättet att installera Aspose.OCR Cloud SDK för Python använder pip. Använd följande kommando för en smidig installation.
Installera Aspose.OCR Cloud SDK för Python via pip
pip install aspose-ocr-cloud
Du kan ladda ner SDK direkt från Aspose.OCR Python Cloud SDK produktsida
Bildigenkänning med Python-appar
Aspose.OCR Cloud SDK för Python tillåter mjukvaruutvecklare att utföra OCR-operationer för att uppnå bildigenkänning i sina egna Python-applikationer. API:et är mycket lätt att använda och bildigenkänning kan utföras från vilken plattform som helst med tillgång till Internet. Du kan enkelt använda OCR REST API för att välja och skicka bilder för igenkänning, hämta resultat och lagra dem i alla filformat som stöds med bara ett par rader kod. Följande exempel visar hur man utför OCR-operationer på bilder med Python-kod.
Utför OCR på en bild i Python Apps
import asposeocrcloud
# create an instance of the OCR client
client = asposeocrcloud.OcrApi(api_key='your_api_key', app_sid='your_app_sid')
# read the image file
with open('image.jpg', 'rb') as image_file:
image_data = image_file.read()
# call the OCR API to extract text from the image
result = client.post_ocr(image_data=image_data, language='eng', use_default_dictionaries=True)
# print the extracted text
print(result.text)
Extrahera text från PDF-filer via Python API
Portable Document Format (PDF) är ett av världens mest populära filformat för affärsdokument och är ett filformat som utvecklades av Adobe 1992 för att presentera dokument. Aspose.OCR Cloud SDK för Python har inkluderat en mycket kraftfull funktion för att extrahera text från PDF-filer i Python-applikationer. För att utföra uppgiften på ett enkelt sätt måste du ladda upp PDF-filen till Asposes molnlagring och utföra OCR-igenkänning på den uppladdade PDF-filen. Följande exempel visar hur mjukvaruutvecklare kan extrahera text från en PDF-fil med Python-kod.
Hur extraherar man text från en PDF-fil via Python API?
import asposeocrcloud
from asposeocrcloud.apis.ocr_api import OcrApi
from asposeocrcloud.configuration import Configuration
configuration = Configuration(api_key='your_api_key', app_sid='your_app_sid')
api = OcrApi(asposeocrcloud.ApiClient(configuration))
# Upload the PDF file to the Aspose cloud storage
with open('your_pdf_file.pdf', 'rb') as file:
api.upload_file(path='your_pdf_file.pdf', file=file)
# Perform the OCR recognition on the uploaded PDF file
result = api.post_recognize_ocr_from_url_or_content(file_path='your_pdf_file.pdf')
# Story the recognized text
recognized_text = result['text']
print(recognized_text)
Konvertera text till tal via Python API
Aspose.OCR Cloud SDK för Python gör det möjligt för mjukvaruutvecklare att konvertera text från bild utan att installera någon programvara från tredje part. Med hjälp av API:t kan programmerare konvertera igenkänningsresultaten till en naturlig mänsklig röst som kan spelas i bakgrunden eller laddas ner. Första användarens behov av att skicka bilden till Aspose OCR Cloud-server och extrahera text från den och efter det konvertera texten till tal med hjälp av Aspose OCR Cloud Text-to-Speech API. Efter den lyckade konverteringen kan du spara talfilen på disk.
Hur konverterar man text till tal med Python API?
import os
from asposeocrcloud import OcrApi, OcrClient, SpeechApi
client_id = os.environ['CLIENT_ID']
client_secret = os.environ['CLIENT_SECRET']
ocr_api = OcrApi(OcrClient(client_id, client_secret))
speech_api = SpeechApi(OcrClient(client_id, client_secret))
# Upload the image containing the text
filename = 'image.png'
with open(filename, 'rb') as file:
response = ocr_api.post_recognize_from_content(file.read(), language='English', use_default_dictionaries=True)
# Extract the recognized text
text = ''
for result in response.parts:
for line in result.lines:
for word in line.words:
text += word.text + ' '
# Convert the text to speech
response = speech_api.post_recognize_from_text(text, language='en-US', voice_name='Ben')
# Save the speech file to disk
with open('output.wav', 'wb') as file:
file.write(response.content)