Open Source Python API for å integrere OCR-funksjoner

Open Source Python-bibliotek som lar programvareutviklere enkelt integrere funksjoner for optisk tegngjenkjenning (OCR) i applikasjonene sine.

PaddleOCR er et kraftig åpen kildekode Python-bibliotek som gjør det mulig for programvareutviklere å enkelt integrere funksjoner for optisk tegngjenkjenning (OCR) i sine Python-applikasjoner. Den er bygget på toppen av PaddlePaddle, en dyp læringsplattform med åpen kildekode, og bruker toppmoderne dyplæringsmodeller for å oppnå høy nøyaktighet og ytelse. PaddleOCR forenkler OCR-prosessen ved å tilby et høynivå-API som abstraherer bort mange av lavnivådetaljene, noe som gjør det enkelt for utviklere å legge til OCR-funksjoner til applikasjonene sine.

PaddleOCR har gitt fullstendig støtte for et bredt spekter av språk og skript. Den støtter for tiden 80+ forskjellige språk, inkludert arabisk, kinesisk, engelsk, fransk, tysk, japansk, koreansk, russisk, spansk og mange andre. Dette gjør det til et verdifullt verktøy for utviklere som trenger å jobbe med flerspråklig innhold. I tillegg til sine kraftige OCR-funksjoner, inkluderer biblioteket også en rekke nyttige verktøy for å jobbe med bilder og tekst. Den inkluderer for eksempel verktøy for bildeforbehandling, som forskyvning og binarisering, samt etterbehandlingsverktøy for å forbedre nøyaktigheten til OCR-utdata.

PaddleOCR tilbyr flere forskjellige OCR-modeller, hver optimalisert for forskjellige brukstilfeller. For eksempel brukes tekstgjenkjenningsmodellen til å finne og trekke ut tekstområder fra et bilde, mens tekstgjenkjenningsmodellen brukes til å gjenkjenne den faktiske teksten innenfor disse områdene. Det er også en Model Ensemble-funksjon som lar utviklere kombinere flere modeller for å oppnå enda høyere nøyaktighet. Totalt sett er PaddleOCR et kraftig og brukervennlig bibliotek for å legge til OCR-funksjoner til Python-applikasjonene dine. Dens støtte for et bredt spekter av språk og skript, samt tilpassbare modeller og etterbehandlingsverktøy, gjør det til et verdifullt verktøy for utviklere som arbeider med OCR.

Med et blikk

En oversikt over PaddleOCR-funksjoner.

Oversikt over funksjoner

Utfør OCR
Legg til OCR-funksjoner
Gjenkjenne bildetekst
Konverter bilder av tekst
Gjenkjent skrifttekst
Søk i PDF
Andre språk
Lag OCR-apper
Lagre i nettleseren
Trekk ut tekst
Støtte for flere tråder

PaddleOCR

PaddleOCR støtter populære bildefilformater oppført nedenfor.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Forfatter

PNG, JPEG, BMP, TIFF

PaddleOCR

Plattformuavhengighet

PaddleOCR kan fungere med .NET Framework 4.8 og Python 2.7 og nyere.

Python 2.7 og nyere.

PaddleOCR

Kom i gang med PaddleOCR

Den anbefalte måten å installere PaddleOCR på er å bruke pip. Bruk følgende kommando for en jevn installasjon

Installer PaddleOCR via pip

 
Installer PaddleOCR via pip
 pip install paddleocr 
Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub-depotet.

`Bildetekstgjenkjenning via PaddleOCR API`

Bildetekstgjenkjenning er prosessen med å trekke ut tekst fra bilder. Det er en nyttig teknikk for ulike applikasjoner som dokumentskanning, digitalisering og OCR (Optical Character Recognition). Åpen kildekode OCR (Optical Character Recognition) API gir et sett med toppmoderne OCR-modeller som kan gjenkjenne tekst fra forskjellige bilder, inkludert skannede dokumenter, skjermbilder og fotografier. Biblioteket støtter flere viktige funksjoner knyttet til bildetekstgjenkjenning som å laste inn bilder, initialisere en OCR-modell, identifisere tekstområde i bildet, gjenkjenne tekst fra bildet, trekke ut tekst fra resultatet og mange flere. Følgende eksempel viser hvordan du gjenkjenner tekst fra et bilde i Python-applikasjoner.

`Utfør bildetekstgjenkjenning i Python-prosjekter`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`OCR-dokumentgjenkjenning med Python API`

Dokumentgjenkjenning har vært et av de fremtredende forskningsområdene for OCR. Dokumenter brukes nesten hver dag i livet vårt. Når programvareutviklere bruker OCR på et dokument, kan det hente viktig informasjon, hente skjemafelt, analysere layout, lagre digitalt og også for å lese gamle manuskripter. PaddleOCR-biblioteket med åpen kildekode lar programvareutviklere laste inn ulike typer dokumenter, utføre OCR-operasjoner og gjenkjenne og trekke ut tekst fra det ved hjelp av Python-kode. Tekstgjenkjenningen er svært nøyaktig, og biblioteket kan enkelt gjenkjenne spesialtegn og mellomrom nøyaktig.

`Utfør OCR Document RecognitionF ved hjelp av Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Støtte for tabellgjenkjenning i Python-apper`

Åpen kildekode PaddleOCR-biblioteket gjør det mulig for programvareutviklere å gjenkjenne tabellens data inne i Python-applikasjonene sine. Tabellgjenkjenningen inneholder hovedsakelig tre modeller, enkeltlinjetekstgjenkjenning-DB, enkeltlinjetekstgjenkjenning-CRNN og tabellstruktur samt cellekoordinatprediksjon-SLANet. Følgende eksempel viser hvordan du gjenkjenner bildet som inneholder tabellen. Følgende eksempel viser hvordan du bruker draw_ocr-metoden som tar inn bildet, grenseboksene, tekstene, partiturene og banen til fontfilen. Den returnerer et bilde med avgrensningsboksene og den oppdagede teksten. Du kan vise bildet ved å bruke vis-metoden.

`Last inn et bilde og finn tekst i det via Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()