Avoimen lähdekoodin Python API integroida OCR-ominaisuudet
Avoimen lähdekoodin Python-kirjasto, jonka avulla ohjelmistokehittäjät voivat helposti integroida optisia merkintunnistusominaisuuksia (OCR) sovelluksiinsa.
PaddleOCR on tehokas avoimen lähdekoodin Python-kirjasto, jonka avulla ohjelmistokehittäjät voivat helposti integroida optisen merkintunnistuksen (OCR) ominaisuudet Python-sovelluksiinsa. Se on rakennettu avoimen lähdekoodin syväoppimisalustan PaddlePaddlen päälle, ja se käyttää huippuluokan syväoppimismalleja korkean tarkkuuden ja suorituskyvyn saavuttamiseksi. PaddleOCR yksinkertaistaa OCR-prosessia tarjoamalla korkean tason sovellusliittymän, joka poistaa monet matalan tason yksityiskohdat, jolloin kehittäjien on helppo lisätä OCR-ominaisuuksia sovelluksiinsa.
PaddleOCR on tarjonnut täydellisen tuen useille kielille ja skripteille. Se tukee tällä hetkellä yli 80 eri kieltä, mukaan lukien arabia, kiina, englanti, ranska, saksa, japani, korea, venäjä, espanja ja monet muut. Tämä tekee siitä arvokkaan työkalun kehittäjille, joiden on työskenneltävä monikielisen sisällön kanssa. Tehokkaiden OCR-ominaisuuksiensa lisäksi kirjastossa on myös useita hyödyllisiä apuohjelmia kuvien ja tekstin käsittelyyn. Se sisältää esimerkiksi työkaluja kuvan esikäsittelyyn, kuten vääristymän ja binaarisoinnin poistamiseen, sekä jälkikäsittelytyökaluja tekstintunnistustuloksen tarkkuuden parantamiseksi.
PaddleOCR tarjoaa useita erilaisia OCR-malleja, joista jokainen on optimoitu eri käyttötapauksiin. Esimerkiksi Tekstintunnistusmallia käytetään tekstialueiden paikallistamiseen ja poimimiseen kuvasta, kun taas Tekstintunnistusmallia käytetään tunnistamaan todellista tekstiä näillä alueilla. Mukana on myös Model Ensemble -ominaisuus, jonka avulla kehittäjät voivat yhdistää useita malleja entistä paremman tarkkuuden saavuttamiseksi. Kaiken kaikkiaan PaddleOCR on tehokas ja helppokäyttöinen kirjasto OCR-ominaisuuksien lisäämiseen Python-sovelluksiin. Sen tuki monenlaisille kielille ja skripteille sekä sen muokattavissa olevat mallit ja jälkikäsittelytyökalut tekevät siitä arvokkaan työkalun OCR:n kanssa työskenteleville kehittäjille.
PaddleOCR:n käytön aloittaminen
Suositeltava tapa asentaa PaddleOCR on pip. Käytä seuraavaa komentoa sujuvaan asennukseen
Asenna PaddleOCR pipin kautta
Install PaddleOCR via pip
pip install paddleocr
Voit asentaa sen myös manuaalisesti. lataa uusimmat julkaisutiedostot suoraan GitHub-arkistosta.
Kuvan tekstin tunnistus PaddleOCR API:n kautta
Kuvatekstin tunnistus on prosessi, jolla poimitaan tekstiä kuvista. Se on hyödyllinen tekniikka erilaisissa sovelluksissa, kuten asiakirjojen skannauksessa, digitoinnissa ja OCR:ssä (Optical Character Recognition). Avoimen lähdekoodin OCR (Optical Character Recognition) API tarjoaa joukon huippuluokan OCR-malleja, jotka voivat tunnistaa tekstiä eri kuvista, mukaan lukien skannatut asiakirjat, kuvakaappaukset ja valokuvat. Kirjasto tukee useita tärkeitä kuvan tekstin tunnistamiseen liittyviä ominaisuuksia, kuten kuvien lataamista, OCR-mallin alustamista, kuvan tekstialueen tunnistamista, tekstin tunnistamista kuvasta, tekstin poimimista tuloksesta ja paljon muuta. Seuraava esimerkki näyttää kuinka tunnistaa tekstiä kuvasta Python-sovelluksissa.
Suorita kuvien tekstin tunnistus Python-projekteissa
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-asiakirjan tunnistus Python-sovellusliittymän avulla
Asiakirjojen tunnistus on ollut yksi OCR:n merkittävimmistä tutkimusalueista. Asiakirjoja käytetään lähes joka päivä elämässämme. Kun ohjelmistokehittäjät soveltavat OCR:ää asiakirjaan, se voi hakea tärkeitä tietoja, hakea lomakekenttiä, analysoida ulkoasua, tallentaa digitaalisesti ja myös lukea vanhoja käsikirjoituksia. Avoimen lähdekoodin PaddleOCR-kirjaston avulla ohjelmistokehittäjät voivat ladata erityyppisiä asiakirjoja, suorittaa OCR-toimintoja sekä tunnistaa ja poimia tekstiä siitä Python-koodin avulla. Tekstintunnistus on erittäin tarkka ja kirjasto tunnistaa helposti erikoismerkit ja välilyönnit tarkasti.
Suorita OCR Document RecognitionF Python API:lla
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Taulukontunnistuksen tuki Python-sovelluksissa
Avoimen lähdekoodin PaddleOCR-kirjaston avulla ohjelmistokehittäjät voivat tunnistaa taulukon tiedot Python-sovelluksissaan. Taulukon tunnistus sisältää pääasiassa kolme mallia, yksirivinen tekstintunnistus-DB, yksirivinen tekstintunnistus-CRNN ja taulukkorakenne sekä solukoordinaattien ennustus-SLANet. Seuraava esimerkki näyttää kuinka tunnistaa taulukon sisältävä kuva. Seuraava esimerkki näyttää, kuinka käytetään draw_ocr-menetelmää, joka ottaa kuvan, rajausruudut, tekstit, pisteet ja polun kirjasintiedostoon. Se palauttaa kuvan, jossa on rajoitusruudut ja havaittu teksti. Voit näyttää kuvan esitysmenetelmällä.
Lataa kuva ja tunnista sen sisällä oleva teksti Python-sovellusliittymän kautta
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()