Avoimen lähdekoodin Python-rajapinta älykkäiden OCR-sovellusten rakentamiseen

Ilmainen Python OCR -rajapinta tekstin havaitsemiseen ja tunnistamiseen kuvista, mukaan lukien luonnolliset näkymät, lomakkeet ja skannatut asiakirjat Python-sovelluksissa.

Mikä on MonkeyOCR?

MonkeyOCR on edistynyt, kokonaisvaltainen optisen merkintunnistuksen (OCR) järjestelmä, joka on rakennettu syväoppimisen pohjalta ohjelmistokehittäjille, jotka etsivät tehokasta ja joustavaa ratkaisua. Yuliang Liu:n kehittämä kirjasto mahdollistaa tarkan tekstin havaitsemisen ja tunnistamisen monipuolisista lähteistä, mukaan lukien luonnolliset näkymät, lomakkeet ja skannatut asiakirjat. Sen modulaarinen ja skaalautuva arkkitehtuuri yhdistää huipputason syväoppimistekniikat vankkaan inferenssiputkeen, mikä tekee siitä poikkeuksellisen sopivan todellisiin tekstintunnistustehtäviin. Käytännön sovelluksia ovat esimerkiksi laskujen skannaus, henkilökorttien lukeminen, tekstin poiminta kylttikuvista sekä monikielisten OCR- tai PDF‑tietoputkien rakentaminen.

Suunniteltu maksimaalista joustavuutta varten, MonkeyOCR antaa ohjelmistosuunnittelijoille mahdollisuuden luoda älykkäitä asiakirjankäsittelyjärjestelmiä ilman kaupallisia OCR‑moottoreita. Se tarjoaa laajan valikoiman edistyneitä ominaisuuksia, kuten täysin modulaarisen OCR‑putken, yksinkertaisen YAML‑tiedostokonfiguraation ja tehokkaan eräinferenssin tuen. Järjestelmä tuottaa tarkat tekstilaatikon tulokset koordinaateilla, hyödyntäen moderneja malleja kuten DBNet++ havaitsemiseen ja CRNN tunnistamiseen, kaikki konfiguroitavassa esikäsittely‑ ja jälkikäsittelykehikossa. Tämä modulaarisen suunnittelun, nykyaikaisten mallien tuen ja helpon konfiguroinnin yhdistelmä tekee MonkeyOCR:sta ihanteellisen monimutkaisten, todellisten sovellusten rakentamiseen – yritysasiakirjojen automaatioista mobiililaitteilla tapahtuvaan kohtauksen tekstintunnistukseen.

Yleiskatsaus

Yleiskatsaus MonkeyOCR:n ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Rakenna OCR-sovelluksia
Lisää OCR-ominaisuuksia
Tunnista kuvan teksti
Muunna tekstikuvat
Tunnistettu fonttiteksti
Muut kielet
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeistystuki

MonkeyOCR

MonkeyOCR tukee alla lueteltuja suosittuja kuvatiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjoittaja

PNG, JPEG, BMP, TIFF

MonkeyOCR

Alustariippumattomuus

MonkeyOCR voi toimia Python 2.7:n ja sitä uudemman kanssa.

Python 2.7 ja uudempi.

MonkeyOCR

Aloittaminen MonkeyOCR:n kanssa

Suositeltu tapa asentaa MonkeyOCR on pipin käyttö. Käytä seuraavaa komentoa sujuvan asennuksen varmistamiseksi.

Asenna MonkeyOCR pipin kautta

 pip install MonkeyOCR

Asenna MonkeyOCR GitHubista

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Voit myös asentaa sen manuaalisesti; lataa viimeisimmät julkaisutiedostot suoraan GitHub-varastosta.

Tekstin poiminta kuitin kuvasta Pythonilla

Avoimen lähdekoodin MonkeyOCR on kokonaisvaltainen optisen merkintunnistuksen (OCR) järjestelmä, joka perustuu syväoppimistekniikoihin. Ohjelmistokehittäjät, jotka rakentavat sovelluksia asiakirjojen, henkilökorttien, kuittien tai rekisterikilpien skannaamiseen, voivat liittää MonkeyOCR:n suoraan taustaputkeensa. Modulaarisen rakenteen ansiosta voit käyttää vain havaitsemismallia tai yhdistää sen tunnistukseen poimiaksesi rakenteellista tekstiä kuvista. Tässä on yksinkertainen esimerkki, joka näyttää, miten teksti poimitaan kuitin kuvasta Python‑rajapinnan avulla.

Kuinka poimia teksti kuitin kuvasta Python‑rajapinnan avulla?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Mukautetut OCR‑putket erityistapauksiin

Yksi avoimen lähdekoodin MonkeyOCR‑kirjaston suurimmista vahvuuksista on sen modulaarinen arkkitehtuuri. Ohjelmistokehittäjät voivat yhdistellä komponentteja, kuten havaitsemis‑, tunnistus‑ ja luokittelumalleja, sovelluksen vaatimusten mukaan. Esimerkiksi asiakirjaskannaussovellus voi käyttää kevyttä mallia kuten DBNet havaitsemiseen ja CRNN tunnistukseen, optimoiden sekä nopeuden että tarkkuuden.

Mukautetut OCR‑putket Python‑rajapinnan avulla?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrointi yritysohjelmistoihin

Avoimen lähdekoodin MonkeyOCR‑kirjasto voidaan myös liittää yritysasiakirjatyönkulkuihin, kuten ERP‑ tai CRM‑järjestelmien tietojen automaattiseen syöttöön. Ohjelmistokehittäjät voivat ajaa MonkeyOCR:n taustalla skannaten PDF‑tiedostoja tai käyttäjien lataamia kuvatiedostoja ja poimia niistä automaattisesti rakenteellista tietoa. Konfiguroimalla MonkeyOCR:n config.yaml‑tiedostolla tiimit voivat ylläpitää yhdenmukaisuutta eri käyttöönottojen välillä.

Automaattisten lomakelukijoiden rakentaminen

Yhdistämällä MonkeyOCR:n tekstihavainnointi paikannustietojen (raja‑laatikot) kanssa kehittäjät voivat suunnitella älykkäitä lomakelukijoita, jotka paikantavat kenttiä (esim. “Nimi”, “Päivämäärä”, “Summa”) ja poimivat niihin liittyvät tiedot. Tämä on ihanteellista verolomakkeille, lääketieteellisille lomakkeille tai kyselyille.