1. Produktai
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

Atvirojo kodo Python API, skirta OCR galimybėms integruoti

Atvirojo kodo Python biblioteka, leidžianti programinės įrangos kūrėjams lengvai integruoti optinio simbolių atpažinimo (OCR) galimybes į savo programas.

PaddleOCR yra galinga atvirojo kodo Python biblioteka, leidžianti programinės įrangos kūrėjams lengvai integruoti optinio simbolių atpažinimo (OCR) galimybes į savo Python programas. Jis sukurtas ant PaddlePaddle, atvirojo kodo gilaus mokymosi platformos, ir naudoja moderniausius giluminio mokymosi modelius, kad būtų pasiektas didelis tikslumas ir našumas. PaddleOCR supaprastina OCR procesą, pateikdama aukšto lygio API, kuri abstrahuoja daug žemo lygio detalių, todėl kūrėjai gali lengvai pridėti OCR galimybes prie savo programų.

PaddleOCR suteikė visišką įvairių kalbų ir scenarijų palaikymą. Šiuo metu ji palaiko daugiau nei 80 skirtingų kalbų, įskaitant arabų, kinų, anglų, prancūzų, vokiečių, japonų, korėjiečių, rusų, ispanų ir daugelį kitų. Dėl to jis yra vertingas įrankis kūrėjams, kuriems reikia dirbti su daugiakalbiu turiniu. Be galingų OCR galimybių, bibliotekoje taip pat yra daug naudingų paslaugų, skirtų darbui su vaizdais ir tekstu. Pavyzdžiui, jame yra įrankius, skirtus išankstiniam vaizdų apdorojimui, pvz., iškreipimo ir dvejetainių suskaidymui, taip pat papildomo apdorojimo įrankius, skirtus OCR išvesties tikslumui pagerinti.

PaddleOCR siūlo kelis skirtingus OCR modelius, kurių kiekvienas yra optimizuotas įvairiems naudojimo atvejams. Pavyzdžiui, teksto aptikimo modelis naudojamas teksto sritims rasti ir iš vaizdo ištraukti, o teksto atpažinimo modelis naudojamas tikram tekstui tuose regionuose atpažinti. Taip pat yra „Model Ensemble“ funkcija, leidžianti kūrėjams sujungti kelis modelius, kad būtų pasiektas dar didesnis tikslumas. Apskritai PaddleOCR yra galinga ir lengvai naudojama biblioteka, skirta jūsų Python programoms pridėti OCR galimybes. Dėl daugybės kalbų ir scenarijų, taip pat pritaikomų modelių ir papildomo apdorojimo įrankių jis yra vertingas įrankis kūrėjams, dirbantiems su OCR.

Previous Next

Darbo su PaddleOCR pradžia

Rekomenduojamas būdas įdiegti PaddleOCR yra naudoti pip. Norėdami sklandžiai įdiegti, naudokite šią komandą

Įdiekite „PaddleOCR“ per pip

 

Įdiekite „PaddleOCR“ per pip

 pip install paddleocr 

Taip pat galite įdiegti rankiniu būdu; atsisiųskite naujausio leidimo failus tiesiai iš GitHub saugyklos.

Vaizdo teksto atpažinimas naudojant PaddleOCR API

Vaizdo teksto atpažinimas yra teksto ištraukimas iš vaizdų. Tai naudinga įvairioms programoms, tokioms kaip dokumentų nuskaitymas, skaitmeninimas ir OCR (optinis simbolių atpažinimas), metodas. Atvirojo kodo OCR (Optical Character Recognition) API suteikia naujausių OCR modelių, kurie gali atpažinti tekstą iš įvairių vaizdų, įskaitant nuskaitytus dokumentus, ekrano kopijas ir nuotraukas, rinkinį. Biblioteka palaiko keletą svarbių funkcijų, susijusių su vaizdo teksto atpažinimu, pvz., vaizdų įkėlimas, OCR modelio inicijavimas, teksto srities identifikavimas vaizde, teksto atpažinimas iš vaizdo, teksto ištraukimas iš rezultato ir daug daugiau. Šiame pavyzdyje parodyta, kaip atpažinti tekstą iš vaizdo Python programose.

Python projektuose atlikite vaizdo teksto atpažinimą

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

OCR dokumentų atpažinimas naudojant Python API

Dokumentų atpažinimas buvo viena iš svarbiausių OCR tyrimų sričių. Dokumentai naudojami beveik kiekvieną dieną mūsų gyvenime. Kai programinės įrangos kūrėjai dokumentui taiko OCR, jis gali gauti svarbią informaciją, formos laukus, analizuoti maketą, saugoti skaitmeniniu būdu ir taip pat skaityti senus rankraščius. Atvirojo kodo PaddleOCR biblioteka leidžia programinės įrangos kūrėjams įkelti įvairių tipų dokumentus, atlikti OCR operacijas ir atpažinti bei iš jos išgauti tekstą naudojant Python kodą. Teksto atpažinimas yra labai tikslus, o biblioteka gali lengvai tiksliai aptikti specialiuosius simbolius ir tarpus.

Atlikite OCR dokumentų atpažinimąF naudodami Python API

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Lentelių atpažinimo palaikymas Python programose

Atvirojo kodo PaddleOCR biblioteka leidžia programinės įrangos kūrėjams atpažinti lentelės duomenis savo Python programose. Lentelės atpažinimą daugiausia sudaro trys modeliai: vienos eilutės teksto aptikimas-DB, vienos eilutės teksto atpažinimas-CRNN ir lentelės struktūra, taip pat ląstelių koordinačių numatymas-SLANet. Toliau pateiktame pavyzdyje parodyta, kaip atpažinti vaizdą, kuriame yra lentelė. Toliau pateiktame pavyzdyje parodyta, kaip naudoti draw_ocr metodą, kuris paima vaizdą, ribojančius langelius, tekstus, balus ir kelią į šrifto failą. Jis grąžina vaizdą su apribojančiais langeliais ir aptiktu tekstu. Galite rodyti vaizdą naudodami rodymo metodą.

Įkelkite vaizdą ir aptikkite jame esantį tekstą per Python API

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Lietuvių