Open Source Python API til at integrere OCR-funktioner

Open Source Python-bibliotek, der giver softwareudviklere mulighed for nemt at integrere optisk tegngenkendelse (OCR) i deres applikationer.

PaddleOCR er et kraftfuldt open source Python-bibliotek, der gør det muligt for softwareudviklere nemt at integrere optisk tegngenkendelse (OCR) i deres Python-applikationer. Den er bygget oven på PaddlePaddle, en open source dyb læringsplatform, og bruger state-of-the-art dyb læringsmodeller for at opnå høj nøjagtighed og ydeevne. PaddleOCR forenkler OCR-processen ved at levere en API på højt niveau, der abstraherer mange af detaljerne på lavt niveau, hvilket gør det nemt for udviklere at tilføje OCR-funktioner til deres applikationer.

PaddleOCR har ydet komplet support til en lang række sprog og scripts. Det understøtter i øjeblikket 80+ forskellige sprog, inklusive arabisk, kinesisk, engelsk, fransk, tysk, japansk, koreansk, russisk, spansk og mange andre. Dette gør det til et værdifuldt værktøj for udviklere, der skal arbejde med flersproget indhold. Ud over dets kraftfulde OCR-funktioner indeholder biblioteket også en række nyttige værktøjer til at arbejde med billeder og tekst. For eksempel inkluderer det værktøjer til billedforbehandling, såsom skråstilling og binarisering, samt efterbehandlingsværktøjer til at forbedre nøjagtigheden af OCR-outputtet.

PaddleOCR leverer flere forskellige OCR-modeller, hver optimeret til forskellige anvendelsestilfælde. For eksempel bruges tekstgenkendelsesmodellen til at lokalisere og udtrække tekstområder fra et billede, mens tekstgenkendelsesmodellen bruges til at genkende den faktiske tekst inden for disse områder. Der er også en Model Ensemble-funktion, der giver udviklere mulighed for at kombinere flere modeller for at opnå endnu højere nøjagtighed. Samlet set er PaddleOCR et kraftfuldt og brugervenligt bibliotek til at tilføje OCR-funktioner til dine Python-applikationer. Dens understøttelse af en lang række sprog og scripts, såvel som dens tilpassede modeller og efterbehandlingsværktøjer, gør det til et værdifuldt værktøj for udviklere, der arbejder med OCR.

Oversigt

En oversigt over PaddleOCR-funktioner.

Oversigt over funktioner

Udfør OCR
Tilføj OCR-funktioner
Genkend billedtekst
Konverter billeder af tekst
Genkendt skrifttypetekst
Søg i PDF
Andre sprog
Opret OCR-apps
Gem i browser
Udtræk tekst
Multi-threading Support

PaddleOCR

PaddleOCR understøtter populære billedfilformater anført nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Forfatter

PNG, JPEG, BMP, TIFF

PaddleOCR

Platformuafhængighed

PaddleOCR kan fungere med .NET Framework 4.8 og Python 2.7 og nyere.

Python 2.7 og nyere.

PaddleOCR

Kom godt i gang med PaddleOCR

Den anbefalede måde at installere PaddleOCR på er at bruge pip. Brug venligst følgende kommando for en problemfri installation

Installer PaddleOCR via pip

 
Installer PaddleOCR via pip
 pip install paddleocr 
Du kan også installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.

`Billedtekstgenkendelse via PaddleOCR API`

Billedtekstgenkendelse er processen med at udtrække tekst fra billeder. Det er en nyttig teknik til forskellige applikationer såsom dokumentscanning, digitalisering og OCR (Optical Character Recognition). Open-source OCR (Optical Character Recognition) API giver et sæt avancerede OCR-modeller, der kan genkende tekst fra forskellige billeder, herunder scannede dokumenter, skærmbilleder og fotografier. Biblioteket understøtter flere vigtige funktioner relateret til billedtekstgenkendelse, såsom indlæsning af billeder, Initialisering af en OCR-model, identifikation af tekstområde i billedet, Genkend tekst fra billedet, udtrækning af tekst fra resultatet og mange flere. Følgende eksempel viser, hvordan man genkender tekst fra et billede inde i Python-applikationer.

`Udfør billedtekstgenkendelse i Python-projekter`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`OCR-dokumentgenkendelse ved hjælp af Python API`

Dokumentgenkendelse har været et af de fremtrædende forskningsområder for OCR. Dokumenter bruges næsten hver dag i vores liv. Når softwareudviklere anvender OCR på et dokument, kan det hente vigtig information, hente formularfelter, analysere layout, gemme digitalt og også til at læse gamle manuskripter. Open-source PaddleOCR-biblioteket giver softwareudviklere mulighed for at indlæse forskellige typer dokumenter, udføre OCR-operationer og genkende og udtrække tekst fra det ved hjælp af Python-kode. Tekstgenkendelsen er meget præcis, og biblioteket kan nemt registrere specialtegn og mellemrum præcist.

`Udfør OCR-dokumentgenkendelseF ved hjælp af Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Tabelgenkendelsesunderstøttelse i Python Apps`

Open source PaddleOCR-biblioteket gør det muligt for softwareudviklere at genkende tabellens data inde i deres Python-applikationer. Tabelgenkendelsen indeholder hovedsageligt tre modeller, enkelt linje tekstgenkendelse-DB, enkelt linje tekstgenkendelse-CRNN og tabelstruktur samt cellekoordinater forudsigelse-SLANet. Følgende eksempel viser, hvordan man genkender billedet, der indeholder tabellen. Det følgende eksempel viser, hvordan man bruger draw_ocr-metoden, som tager billedet, afgrænsningsfelterne, teksterne, partiturene og stien til skrifttypefilen ind. Det returnerer et billede med afgrænsningsrammer og den registrerede tekst. Du kan vise billedet ved hjælp af vis-metoden.

`Indlæs et billede og find tekst i det via Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()