Atvirojo kodo Python API, skirta OCR galimybėms integruoti
Atvirojo kodo Python biblioteka, leidžianti programinės įrangos kūrėjams lengvai integruoti optinio simbolių atpažinimo (OCR) galimybes į savo programas.
PaddleOCR yra galinga atvirojo kodo Python biblioteka, leidžianti programinės įrangos kūrėjams lengvai integruoti optinio simbolių atpažinimo (OCR) galimybes į savo Python programas. Jis sukurtas ant PaddlePaddle, atvirojo kodo gilaus mokymosi platformos, ir naudoja moderniausius giluminio mokymosi modelius, kad būtų pasiektas didelis tikslumas ir našumas. PaddleOCR supaprastina OCR procesą, pateikdama aukšto lygio API, kuri abstrahuoja daug žemo lygio detalių, todėl kūrėjai gali lengvai pridėti OCR galimybes prie savo programų.
PaddleOCR suteikė visišką įvairių kalbų ir scenarijų palaikymą. Šiuo metu ji palaiko daugiau nei 80 skirtingų kalbų, įskaitant arabų, kinų, anglų, prancūzų, vokiečių, japonų, korėjiečių, rusų, ispanų ir daugelį kitų. Dėl to jis yra vertingas įrankis kūrėjams, kuriems reikia dirbti su daugiakalbiu turiniu. Be galingų OCR galimybių, bibliotekoje taip pat yra daug naudingų paslaugų, skirtų darbui su vaizdais ir tekstu. Pavyzdžiui, jame yra įrankius, skirtus išankstiniam vaizdų apdorojimui, pvz., iškreipimo ir dvejetainių suskaidymui, taip pat papildomo apdorojimo įrankius, skirtus OCR išvesties tikslumui pagerinti.
PaddleOCR siūlo kelis skirtingus OCR modelius, kurių kiekvienas yra optimizuotas įvairiems naudojimo atvejams. Pavyzdžiui, teksto aptikimo modelis naudojamas teksto sritims rasti ir iš vaizdo ištraukti, o teksto atpažinimo modelis naudojamas tikram tekstui tuose regionuose atpažinti. Taip pat yra „Model Ensemble“ funkcija, leidžianti kūrėjams sujungti kelis modelius, kad būtų pasiektas dar didesnis tikslumas. Apskritai PaddleOCR yra galinga ir lengvai naudojama biblioteka, skirta jūsų Python programoms pridėti OCR galimybes. Dėl daugybės kalbų ir scenarijų, taip pat pritaikomų modelių ir papildomo apdorojimo įrankių jis yra vertingas įrankis kūrėjams, dirbantiems su OCR.
Darbo su PaddleOCR pradžia
Rekomenduojamas būdas įdiegti PaddleOCR yra naudoti pip. Norėdami sklandžiai įdiegti, naudokite šią komandą
Įdiekite „PaddleOCR“ per pip
Įdiekite „PaddleOCR“ per pip
pip install paddleocr
Taip pat galite įdiegti rankiniu būdu; atsisiųskite naujausio leidimo failus tiesiai iš GitHub saugyklos.
Vaizdo teksto atpažinimas naudojant PaddleOCR API
Vaizdo teksto atpažinimas yra teksto ištraukimas iš vaizdų. Tai naudinga įvairioms programoms, tokioms kaip dokumentų nuskaitymas, skaitmeninimas ir OCR (optinis simbolių atpažinimas), metodas. Atvirojo kodo OCR (Optical Character Recognition) API suteikia naujausių OCR modelių, kurie gali atpažinti tekstą iš įvairių vaizdų, įskaitant nuskaitytus dokumentus, ekrano kopijas ir nuotraukas, rinkinį. Biblioteka palaiko keletą svarbių funkcijų, susijusių su vaizdo teksto atpažinimu, pvz., vaizdų įkėlimas, OCR modelio inicijavimas, teksto srities identifikavimas vaizde, teksto atpažinimas iš vaizdo, teksto ištraukimas iš rezultato ir daug daugiau. Šiame pavyzdyje parodyta, kaip atpažinti tekstą iš vaizdo Python programose.
Python projektuose atlikite vaizdo teksto atpažinimą
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR dokumentų atpažinimas naudojant Python API
Dokumentų atpažinimas buvo viena iš svarbiausių OCR tyrimų sričių. Dokumentai naudojami beveik kiekvieną dieną mūsų gyvenime. Kai programinės įrangos kūrėjai dokumentui taiko OCR, jis gali gauti svarbią informaciją, formos laukus, analizuoti maketą, saugoti skaitmeniniu būdu ir taip pat skaityti senus rankraščius. Atvirojo kodo PaddleOCR biblioteka leidžia programinės įrangos kūrėjams įkelti įvairių tipų dokumentus, atlikti OCR operacijas ir atpažinti bei iš jos išgauti tekstą naudojant Python kodą. Teksto atpažinimas yra labai tikslus, o biblioteka gali lengvai tiksliai aptikti specialiuosius simbolius ir tarpus.
Atlikite OCR dokumentų atpažinimąF naudodami Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Lentelių atpažinimo palaikymas Python programose
Atvirojo kodo PaddleOCR biblioteka leidžia programinės įrangos kūrėjams atpažinti lentelės duomenis savo Python programose. Lentelės atpažinimą daugiausia sudaro trys modeliai: vienos eilutės teksto aptikimas-DB, vienos eilutės teksto atpažinimas-CRNN ir lentelės struktūra, taip pat ląstelių koordinačių numatymas-SLANet. Toliau pateiktame pavyzdyje parodyta, kaip atpažinti vaizdą, kuriame yra lentelė. Toliau pateiktame pavyzdyje parodyta, kaip naudoti draw_ocr metodą, kuris paima vaizdą, ribojančius langelius, tekstus, balus ir kelią į šrifto failą. Jis grąžina vaizdą su apribojančiais langeliais ir aptiktu tekstu. Galite rodyti vaizdą naudodami rodymo metodą.
Įkelkite vaizdą ir aptikkite jame esantį tekstą per Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()