Open Source Python API om OCR-mogelijkheden te integreren
Open Source Python-bibliotheek waarmee softwareontwikkelaars eenvoudig optische karakterherkenningsmogelijkheden (OCR) in hun applicaties kunnen integreren.
PaddleOCR is een krachtige open source Python-bibliotheek waarmee softwareontwikkelaars eenvoudig optische tekenherkenningsmogelijkheden (OCR) kunnen integreren in hun Python-applicaties. Het is gebouwd bovenop PaddlePaddle, een open-source deep learning-platform, en maakt gebruik van de modernste deep learning-modellen om hoge nauwkeurigheid en prestaties te bereiken. PaddleOCR vereenvoudigt het OCR-proces door een API op hoog niveau te bieden die veel van de details op laag niveau weghaalt, waardoor het voor ontwikkelaars gemakkelijk wordt om OCR-mogelijkheden aan hun applicaties toe te voegen.
PaddleOCR biedt volledige ondersteuning voor een breed scala aan talen en scripts. Het ondersteunt momenteel meer dan 80 verschillende talen, waaronder Arabisch, Chinees, Engels, Frans, Duits, Japans, Koreaans, Russisch, Spaans en vele andere. Dit maakt het een waardevol hulpmiddel voor ontwikkelaars die met meertalige inhoud moeten werken. Naast de krachtige OCR-mogelijkheden bevat de bibliotheek ook een aantal handige hulpprogramma's voor het werken met afbeeldingen en tekst. Het bevat bijvoorbeeld tools voor het voorbewerken van afbeeldingen, zoals rechtzetten en binariseren, maar ook tools voor nabewerking om de nauwkeurigheid van de OCR-uitvoer te verbeteren.
PaddleOCR biedt verschillende OCR-modellen, elk geoptimaliseerd voor verschillende gebruiksscenario's. Het tekstdetectiemodel wordt bijvoorbeeld gebruikt om tekstgebieden uit een afbeelding te lokaliseren en te extraheren, terwijl het tekstherkenningsmodel wordt gebruikt om de daadwerkelijke tekst binnen die gebieden te herkennen. Er is ook een Model Ensemble-functie waarmee ontwikkelaars meerdere modellen kunnen combineren om een nog hogere nauwkeurigheid te bereiken. Over het geheel genomen is PaddleOCR een krachtige en eenvoudig te gebruiken bibliotheek voor het toevoegen van OCR-mogelijkheden aan uw Python-applicaties. De ondersteuning voor een breed scala aan talen en scripts, evenals de aanpasbare modellen en nabewerkingstools, maken het tot een waardevol hulpmiddel voor ontwikkelaars die met OCR werken.
Aan de slag met PaddleOCR
De aanbevolen manier om PaddleOCR te installeren is het gebruik van pip. Gebruik het volgende commando voor een vlotte installatie
Installeer PaddleOCR via pip
Install PaddleOCR via pip
pip install paddleocr
Je kunt het ook handmatig installeren; download de nieuwste releasebestanden rechtstreeks vanuit de GitHub repository.
Afbeeldingstekstherkenning via PaddleOCR API
Beeldtekstherkenning is het proces waarbij tekst uit afbeeldingen wordt geëxtraheerd. Het is een nuttige techniek voor verschillende toepassingen, zoals het scannen van documenten, digitalisering en OCR (Optical Character Recognition). De open-source OCR-API (Optical Character Recognition) biedt een reeks geavanceerde OCR-modellen die tekst uit verschillende afbeeldingen kunnen herkennen, inclusief gescande documenten, schermafbeeldingen en foto's. De bibliotheek ondersteunt verschillende belangrijke functies met betrekking tot beeldtekstherkenning, zoals het laden van afbeeldingen, het initialiseren van een OCR-model, het identificeren van tekstgebieden in de afbeelding, het herkennen van tekst uit de afbeelding, het extraheren van tekst uit het resultaat en nog veel meer. Het volgende voorbeeld laat zien hoe u tekst uit een afbeelding in Python-toepassingen kunt herkennen.
Voer beeldtekstherkenning uit binnen Python-projecten
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-documentherkenning met behulp van de Python API
Documentherkenning is een van de prominente onderzoeksgebieden voor OCR. Documenten worden bijna elke dag in ons leven gebruikt. Wanneer softwareontwikkelaars OCR op een document toepassen, kan het belangrijke informatie ophalen, formuliervelden ophalen, de lay-out analyseren, digitaal opslaan en ook voor het lezen van oude manuscripten. Met de open-source PaddleOCR-bibliotheek kunnen softwareontwikkelaars verschillende soorten documenten laden, OCR-bewerkingen uitvoeren en tekst daaruit herkennen en extraheren met behulp van Python-code. De tekstherkenning is zeer nauwkeurig en de bibliotheek kan speciale tekens en spaties eenvoudig en nauwkeurig detecteren.
Voer OCR-documentherkenning uit met behulp van de Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Ondersteuning voor tabelherkenning in Python-apps
De open source PaddleOCR-bibliotheek stelt softwareontwikkelaars in staat de tabelgegevens in hun Python-applicaties te herkennen. De tabelherkenning bevat hoofdzakelijk drie modellen: tekstdetectie met één regel (DB), tekstherkenning met één regel (CRNN) en tabelstructuur en voorspelling van celcoördinaten (SLANet). In het volgende voorbeeld ziet u hoe u de afbeelding kunt herkennen die de tabel bevat. Het volgende voorbeeld laat zien hoe u de draw_ocr-methode gebruikt, waarbij de afbeelding, de selectiekaders, de teksten, de partituren en het pad naar het lettertypebestand worden overgenomen. Het retourneert een afbeelding met de selectiekaders en de gedetecteerde tekst. U kunt de afbeelding weergeven met behulp van de show-methode.
Laad een afbeelding en detecteer de tekst erin via de Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()