Avoimen lähdekoodin Python API integroida OCR-ominaisuudet

Avoimen lähdekoodin Python-kirjasto, jonka avulla ohjelmistokehittäjät voivat helposti integroida optisia merkintunnistusominaisuuksia (OCR) sovelluksiinsa.

PaddleOCR on tehokas avoimen lähdekoodin Python-kirjasto, jonka avulla ohjelmistokehittäjät voivat helposti integroida optisen merkintunnistuksen (OCR) ominaisuudet Python-sovelluksiinsa. Se on rakennettu avoimen lähdekoodin syväoppimisalustan PaddlePaddlen päälle, ja se käyttää huippuluokan syväoppimismalleja korkean tarkkuuden ja suorituskyvyn saavuttamiseksi. PaddleOCR yksinkertaistaa OCR-prosessia tarjoamalla korkean tason sovellusliittymän, joka poistaa monet matalan tason yksityiskohdat, jolloin kehittäjien on helppo lisätä OCR-ominaisuuksia sovelluksiinsa.

PaddleOCR on tarjonnut täydellisen tuen useille kielille ja skripteille. Se tukee tällä hetkellä yli 80 eri kieltä, mukaan lukien arabia, kiina, englanti, ranska, saksa, japani, korea, venäjä, espanja ja monet muut. Tämä tekee siitä arvokkaan työkalun kehittäjille, joiden on työskenneltävä monikielisen sisällön kanssa. Tehokkaiden OCR-ominaisuuksiensa lisäksi kirjastossa on myös useita hyödyllisiä apuohjelmia kuvien ja tekstin käsittelyyn. Se sisältää esimerkiksi työkaluja kuvan esikäsittelyyn, kuten vääristymän ja binaarisoinnin poistamiseen, sekä jälkikäsittelytyökaluja tekstintunnistustuloksen tarkkuuden parantamiseksi.

PaddleOCR tarjoaa useita erilaisia OCR-malleja, joista jokainen on optimoitu eri käyttötapauksiin. Esimerkiksi Tekstintunnistusmallia käytetään tekstialueiden paikallistamiseen ja poimimiseen kuvasta, kun taas Tekstintunnistusmallia käytetään tunnistamaan todellista tekstiä näillä alueilla. Mukana on myös Model Ensemble -ominaisuus, jonka avulla kehittäjät voivat yhdistää useita malleja entistä paremman tarkkuuden saavuttamiseksi. Kaiken kaikkiaan PaddleOCR on tehokas ja helppokäyttöinen kirjasto OCR-ominaisuuksien lisäämiseen Python-sovelluksiin. Sen tuki monenlaisille kielille ja skripteille sekä sen muokattavissa olevat mallit ja jälkikäsittelytyökalut tekevät siitä arvokkaan työkalun OCR:n kanssa työskenteleville kehittäjille.

Yhdellä silmäyksellä

Yleiskatsaus PaddleOCR:n ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Suorita OCR
Lisää OCR-ominaisuudet
Tunnista kuvan teksti
Tekstikuvat
Tunnettu kirjasinteksti
Hae PDF-tiedostosta
Muut kielet
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeen tuki

PaddleOCR

PaddleOCR tukee alla lueteltuja suosittuja kuvatiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjailija

PNG, JPEG, BMP, TIFF

PaddleOCR

Alusta riippumattomuus

PaddleOCR voi toimia .NET Framework 4.8:n ja Python 2.7:n ja uudempien kanssa.

Python 2.7 ja uudemmat.

PaddleOCR

PaddleOCR:n käytön aloittaminen

Suositeltava tapa asentaa PaddleOCR on pip. Käytä seuraavaa komentoa sujuvaan asennukseen

Asenna PaddleOCR pipin kautta

 
Install PaddleOCR via pip
 pip install paddleocr 
Voit asentaa sen myös manuaalisesti. lataa uusimmat julkaisutiedostot suoraan GitHub-arkistosta.

`Kuvan tekstin tunnistus PaddleOCR API:n kautta`

Kuvatekstin tunnistus on prosessi, jolla poimitaan tekstiä kuvista. Se on hyödyllinen tekniikka erilaisissa sovelluksissa, kuten asiakirjojen skannauksessa, digitoinnissa ja OCR:ssä (Optical Character Recognition). Avoimen lähdekoodin OCR (Optical Character Recognition) API tarjoaa joukon huippuluokan OCR-malleja, jotka voivat tunnistaa tekstiä eri kuvista, mukaan lukien skannatut asiakirjat, kuvakaappaukset ja valokuvat. Kirjasto tukee useita tärkeitä kuvan tekstin tunnistamiseen liittyviä ominaisuuksia, kuten kuvien lataamista, OCR-mallin alustamista, kuvan tekstialueen tunnistamista, tekstin tunnistamista kuvasta, tekstin poimimista tuloksesta ja paljon muuta. Seuraava esimerkki näyttää kuinka tunnistaa tekstiä kuvasta Python-sovelluksissa.

`Suorita kuvien tekstin tunnistus Python-projekteissa`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`OCR-asiakirjan tunnistus Python-sovellusliittymän avulla`

Asiakirjojen tunnistus on ollut yksi OCR:n merkittävimmistä tutkimusalueista. Asiakirjoja käytetään lähes joka päivä elämässämme. Kun ohjelmistokehittäjät soveltavat OCR:ää asiakirjaan, se voi hakea tärkeitä tietoja, hakea lomakekenttiä, analysoida ulkoasua, tallentaa digitaalisesti ja myös lukea vanhoja käsikirjoituksia. Avoimen lähdekoodin PaddleOCR-kirjaston avulla ohjelmistokehittäjät voivat ladata erityyppisiä asiakirjoja, suorittaa OCR-toimintoja sekä tunnistaa ja poimia tekstiä siitä Python-koodin avulla. Tekstintunnistus on erittäin tarkka ja kirjasto tunnistaa helposti erikoismerkit ja välilyönnit tarkasti.

`Suorita OCR Document RecognitionF Python API:lla`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Taulukontunnistuksen tuki Python-sovelluksissa`

Avoimen lähdekoodin PaddleOCR-kirjaston avulla ohjelmistokehittäjät voivat tunnistaa taulukon tiedot Python-sovelluksissaan. Taulukon tunnistus sisältää pääasiassa kolme mallia, yksirivinen tekstintunnistus-DB, yksirivinen tekstintunnistus-CRNN ja taulukkorakenne sekä solukoordinaattien ennustus-SLANet. Seuraava esimerkki näyttää kuinka tunnistaa taulukon sisältävä kuva. Seuraava esimerkki näyttää, kuinka käytetään draw_ocr-menetelmää, joka ottaa kuvan, rajausruudut, tekstit, pisteet ja polun kirjasintiedostoon. Se palauttaa kuvan, jossa on rajoitusruudut ja havaittu teksti. Voit näyttää kuvan esitysmenetelmällä.

`Lataa kuva ja tunnista sen sisällä oleva teksti Python-sovellusliittymän kautta`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()