Open Source Python API for å integrere OCR-funksjoner
Open Source Python-bibliotek som lar programvareutviklere enkelt integrere funksjoner for optisk tegngjenkjenning (OCR) i applikasjonene sine.
PaddleOCR er et kraftig åpen kildekode Python-bibliotek som gjør det mulig for programvareutviklere å enkelt integrere funksjoner for optisk tegngjenkjenning (OCR) i sine Python-applikasjoner. Den er bygget på toppen av PaddlePaddle, en dyp læringsplattform med åpen kildekode, og bruker toppmoderne dyplæringsmodeller for å oppnå høy nøyaktighet og ytelse. PaddleOCR forenkler OCR-prosessen ved å tilby et høynivå-API som abstraherer bort mange av lavnivådetaljene, noe som gjør det enkelt for utviklere å legge til OCR-funksjoner til applikasjonene sine.
PaddleOCR har gitt fullstendig støtte for et bredt spekter av språk og skript. Den støtter for tiden 80+ forskjellige språk, inkludert arabisk, kinesisk, engelsk, fransk, tysk, japansk, koreansk, russisk, spansk og mange andre. Dette gjør det til et verdifullt verktøy for utviklere som trenger å jobbe med flerspråklig innhold. I tillegg til sine kraftige OCR-funksjoner, inkluderer biblioteket også en rekke nyttige verktøy for å jobbe med bilder og tekst. Den inkluderer for eksempel verktøy for bildeforbehandling, som forskyvning og binarisering, samt etterbehandlingsverktøy for å forbedre nøyaktigheten til OCR-utdata.
PaddleOCR tilbyr flere forskjellige OCR-modeller, hver optimalisert for forskjellige brukstilfeller. For eksempel brukes tekstgjenkjenningsmodellen til å finne og trekke ut tekstområder fra et bilde, mens tekstgjenkjenningsmodellen brukes til å gjenkjenne den faktiske teksten innenfor disse områdene. Det er også en Model Ensemble-funksjon som lar utviklere kombinere flere modeller for å oppnå enda høyere nøyaktighet. Totalt sett er PaddleOCR et kraftig og brukervennlig bibliotek for å legge til OCR-funksjoner til Python-applikasjonene dine. Dens støtte for et bredt spekter av språk og skript, samt tilpassbare modeller og etterbehandlingsverktøy, gjør det til et verdifullt verktøy for utviklere som arbeider med OCR.
Kom i gang med PaddleOCR
Den anbefalte måten å installere PaddleOCR på er å bruke pip. Bruk følgende kommando for en jevn installasjon
Installer PaddleOCR via pip
Installer PaddleOCR via pip
pip install paddleocr
Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub-depotet.
Bildetekstgjenkjenning via PaddleOCR API
Bildetekstgjenkjenning er prosessen med å trekke ut tekst fra bilder. Det er en nyttig teknikk for ulike applikasjoner som dokumentskanning, digitalisering og OCR (Optical Character Recognition). Åpen kildekode OCR (Optical Character Recognition) API gir et sett med toppmoderne OCR-modeller som kan gjenkjenne tekst fra forskjellige bilder, inkludert skannede dokumenter, skjermbilder og fotografier. Biblioteket støtter flere viktige funksjoner knyttet til bildetekstgjenkjenning som å laste inn bilder, initialisere en OCR-modell, identifisere tekstområde i bildet, gjenkjenne tekst fra bildet, trekke ut tekst fra resultatet og mange flere. Følgende eksempel viser hvordan du gjenkjenner tekst fra et bilde i Python-applikasjoner.
Utfør bildetekstgjenkjenning i Python-prosjekter
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-dokumentgjenkjenning med Python API
Dokumentgjenkjenning har vært et av de fremtredende forskningsområdene for OCR. Dokumenter brukes nesten hver dag i livet vårt. Når programvareutviklere bruker OCR på et dokument, kan det hente viktig informasjon, hente skjemafelt, analysere layout, lagre digitalt og også for å lese gamle manuskripter. PaddleOCR-biblioteket med åpen kildekode lar programvareutviklere laste inn ulike typer dokumenter, utføre OCR-operasjoner og gjenkjenne og trekke ut tekst fra det ved hjelp av Python-kode. Tekstgjenkjenningen er svært nøyaktig, og biblioteket kan enkelt gjenkjenne spesialtegn og mellomrom nøyaktig.
Utfør OCR Document RecognitionF ved hjelp av Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Støtte for tabellgjenkjenning i Python-apper
Åpen kildekode PaddleOCR-biblioteket gjør det mulig for programvareutviklere å gjenkjenne tabellens data inne i Python-applikasjonene sine. Tabellgjenkjenningen inneholder hovedsakelig tre modeller, enkeltlinjetekstgjenkjenning-DB, enkeltlinjetekstgjenkjenning-CRNN og tabellstruktur samt cellekoordinatprediksjon-SLANet. Følgende eksempel viser hvordan du gjenkjenner bildet som inneholder tabellen. Følgende eksempel viser hvordan du bruker draw_ocr-metoden som tar inn bildet, grenseboksene, tekstene, partiturene og banen til fontfilen. Den returnerer et bilde med avgrensningsboksene og den oppdagede teksten. Du kan vise bildet ved å bruke vis-metoden.
Last inn et bilde og finn tekst i det via Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()