Open Source Python API för att integrera OCR-funktioner
Open Source Python-bibliotek som gör det möjligt för mjukvaruutvecklare att enkelt integrera funktioner för optisk teckenigenkänning (OCR) i sina applikationer.
PaddleOCR är ett kraftfullt Python-bibliotek med öppen källkod som gör det möjligt för mjukvaruutvecklare att enkelt integrera funktioner för optisk teckenigenkänning (OCR) i sina Python-applikationer. Den är byggd ovanpå PaddlePaddle, en plattform för djupinlärning med öppen källkod, och använder toppmoderna djupinlärningsmodeller för att uppnå hög noggrannhet och prestanda. PaddleOCR förenklar OCR-processen genom att tillhandahålla ett högnivå-API som abstraherar bort många av lågnivådetaljerna, vilket gör det enkelt för utvecklare att lägga till OCR-funktioner till sina applikationer.
PaddleOCR har tillhandahållit komplett stöd för ett brett utbud av språk och skript. Den stöder för närvarande 80+ olika språk, inklusive arabiska, kinesiska, engelska, franska, tyska, japanska, koreanska, ryska, spanska och många andra. Detta gör det till ett värdefullt verktyg för utvecklare som behöver arbeta med flerspråkigt innehåll. Utöver dess kraftfulla OCR-funktioner innehåller biblioteket även ett antal användbara verktyg för att arbeta med bilder och text. Den innehåller till exempel verktyg för bildförbehandling, såsom avskedning och binarisering, samt efterbearbetningsverktyg för att förbättra noggrannheten i OCR-utdata.
PaddleOCR tillhandahåller flera olika OCR-modeller, var och en optimerad för olika användningsfall. Till exempel används textidentifieringsmodellen för att lokalisera och extrahera textområden från en bild, medan textigenkänningsmodellen används för att känna igen den faktiska texten inom dessa regioner. Det finns också en Model Ensemble-funktion som gör att utvecklare kan kombinera flera modeller för att uppnå ännu högre noggrannhet. Sammantaget är PaddleOCR ett kraftfullt och lättanvänt bibliotek för att lägga till OCR-funktioner till dina Python-applikationer. Dess stöd för ett brett utbud av språk och skript, såväl som dess anpassningsbara modeller och efterbearbetningsverktyg, gör det till ett värdefullt verktyg för utvecklare som arbetar med OCR.
Komma igång med PaddleOCR
Det rekommenderade sättet att installera PaddleOCR är att använda pip. Använd följande kommando för en smidig installation
Installera PaddleOCR via pip
Installera PaddleOCR via pip
pip install paddleocr
Du kan också installera det manuellt; ladda ner de senaste versionsfilerna direkt från GitHub-förrådet.
Bildtextigenkänning via PaddleOCR API
Bildtextigenkänning är processen att extrahera text från bilder. Det är en användbar teknik för olika applikationer som dokumentskanning, digitalisering och OCR (Optical Character Recognition). Open-source OCR (Optical Character Recognition) API tillhandahåller en uppsättning toppmoderna OCR-modeller som kan känna igen text från olika bilder, inklusive skannade dokument, skärmdumpar och fotografier. Biblioteket stöder flera viktiga funktioner relaterade till bildtextigenkänning som att ladda bilder, initiera en OCR-modell, identifiera textregion i bilden, känna igen text från bilden, extrahera text från resultatet och många fler. Följande exempel visar hur man känner igen text från en bild i Python-applikationer.
Utför bildtextigenkänning i Python-projekt
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-dokumentigenkänning med Python API
Dokumentigenkänning har varit ett av de framstående forskningsområdena för OCR. Dokument används nästan varje dag i vårt liv. När mjukvaruutvecklare tillämpar OCR på ett dokument kan det hämta viktig information, hämta formulärfält, analysera layout, lagra digitalt och även för att läsa gamla manuskript. PaddleOCR-biblioteket med öppen källkod tillåter mjukvaruutvecklare att ladda olika typer av dokument, utföra OCR-operationer och känna igen och extrahera text från den med Python-kod. Textigenkänningen är mycket exakt och biblioteket kan enkelt upptäcka specialtecken och mellanslag exakt.
Utför OCR Document RecognitionF med Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Stöd för tabelligenkänning i Python-appar
PaddleOCR-biblioteket med öppen källkod gör det möjligt för mjukvaruutvecklare att känna igen tabellens data i sina Python-applikationer. Tabelligenkänningen innehåller huvudsakligen tre modeller, enkelradstextdetektering-DB, enkelradstextigenkänning-CRNN och tabellstruktur samt cellkoordinatprediktion-SLANet. Följande exempel visar hur man känner igen bilden som innehåller tabellen. Följande exempel visar hur man använder metoden draw_ocr som tar in bilden, begränsningsrutorna, texterna, poängen och sökvägen till teckensnittsfilen. Den returnerar en bild med begränsningsrutorna och den upptäckta texten. Du kan visa bilden med hjälp av visa-metoden.
Läs in en bild och identifiera text inuti den via Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()