Atviro kodo Python API, skirtas kurti išmanias OCR programas

Nemokama Python OCR API, skirta aptikti ir atpažinti tekstą iš vaizdų, įskaitant natūralias scenas, formas ir nuskenuotus dokumentus Python programose.

Kas yra MonkeyOCR?

MonkeyOCR yra pažangi, nuo pradžios iki pabaigos veikianti optinio simbolių atpažinimo (OCR) sistema, sukurta naudojant gilųjį mokymąsi, skirta programinės įrangos kūrėjams, ieškantiems galingo ir lankstaus sprendimo. Šią biblioteką sukūrė Yuliang Liu, ji leidžia tiksliai aptikti ir atpažinti tekstą iš įvairių šaltinių, įskaitant natūralias scenas, formas ir nuskenuotus dokumentus. Jos modulini ir mastelį leidžiantis architektūra sujungia pažangiausias giluminio mokymosi technologijas su patikimu inferencijos konvejeriu, todėl ji ypač tinkama realaus pasaulio teksto atpažinimo užduotims. Praktiniai taikymai svyruoja nuo sąskaitų faktūrų skenavimo ir asmens tapatybės kortelių skaitymo iki teksto ištraukimo iš ženklų ir daugiakalbės OCR arba PDF‑į‑duomenų konvejerio kūrimo.

Sukurta maksimaliai lankstumui, MonkeyOCR suteikia programinės įrangos inžinieriams galimybę kurti išmanias dokumentų apdorojimo sistemas, nepriklausomas nuo komercinių OCR variklių. Ji siūlo platų pažangių funkcijų rinkinį, įskaitant visiškai modulini OCR konvejerį, paprastą YAML konfigūracijos failą ir efektyvią paketų inferencijos paramą. Sistema pateikia tikslius teksto dėžutės išvesties duomenis su koordinatėmis, naudodama šiuolaikinius modelius, tokius kaip DBNet++ detekcijai ir CRNN atpažinimui, viskas konfigūruojamoje prieš‑ ir po‑apdorojimo aplinkoje. Šis modulinių dizaino, šiuolaikinių modelių palaikymo ir konfigūracijos paprastumo derinys daro MonkeyOCR puikiai tinkamą kurti sudėtingas, realaus pasaulio programas – nuo įmonės dokumentų automatizavimo iki mobilios scenų teksto atpažinimo.

Apžvalga

MonkeyOCR funkcijų apžvalga.

Features Overview

Kurti OCR programas
Pridėti OCR galimybes
Atpažinti vaizdo tekstą
Konvertuoti teksto vaizdus
Atpažintas šriftų tekstas
Kitos kalbos
Kurti OCR programas
Išsaugoti naršyklėje
Ištraukti tekstą
Daugiagijų palaikymas

MonkeyOCR

MonkeyOCR palaiko populiarius vaizdo failų formatus, išvardytus žemiau.

Skaitytojas

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rašytojas

PNG, JPEG, BMP, TIFF

MonkeyOCR

Platformos nepriklausomumas

MonkeyOCR gali veikti su Python 2.7 ir vėlesnėmis versijomis.

Python 2.7 ir vėlesnės versijos.

MonkeyOCR

Pradžia su MonkeyOCR

Rekomenduojamas būdas įdiegti MonkeyOCR yra naudojant pip. Prašome naudoti šią komandą sklandžiam įdiegimui.

Įdiegti MonkeyOCR per pip

 pip install MonkeyOCR

Įdiegti MonkeyOCR per GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

You can also install it manually; download the latest release files directly from GitHub repository.

Teksto ištrauka iš kvito nuotraukos naudojant Python

Atviro kodo MonkeyOCR yra nuo pradžios iki pabaigos veikianti optinio simbolių atpažinimo (OCR) sistema, paremta giluminio mokymosi technikomis. Programinės įrangos kūrėjai, dirbantys su programėlėmis, kurios skenuoja dokumentus, asmens tapatybės korteles, kvitus ar numerių plokštes, gali tiesiogiai integruoti MonkeyOCR į savo backend konvejerį. Dėl modulios architektūros galite naudoti tik detekcijos modelį arba sujungti jį su atpažinimu, kad iš nuotraukų išgautumėte struktūruotą tekstą. Štai paprastas pavyzdys, kaip ištraukti tekstą iš kvito nuotraukos naudojant Python API.

Kaip ištraukti tekstą iš kvito nuotraukos naudojant Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Individualizuotos OCR konvejeriai specifiniams naudojimo atvejams

Viena didžiausių atviro kodo MonkeyOCR bibliotekos stiprybių – jos modulinė architektūra. Programinės įrangos kūrėjai gali laisvai derinti komponentus, tokius kaip detekcijos, atpažinimo ir klasifikavimo modeliai, pagal savo programos reikalavimus. Pavyzdžiui, dokumentų skenavimo programėlė gali naudoti lengvą modelį, kaip DBNet, detekcijai ir CRNN atpažinimui, taip optimizuodama tiek greitį, tiek tikslumą.

Individualizuoti OCR konvejeriai naudojant Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integracija su verslo programine įranga

Atviro kodo MonkeyOCR biblioteka taip pat gali būti integruota į įmonės dokumentų darbo srautus, pavyzdžiui, automatizuojant duomenų įvedimą ERP arba CRM sistemose. Programinės įrangos kūrėjai gali paleisti MonkeyOCR fone, kad skenuotų nuskenuotus PDF arba vaizdinius dokumentus, įkeltus vartotojų, automatiškai išgautų struktūruotą informaciją. Konfigūruojant MonkeyOCR su config.yaml, komandos gali išlaikyti nuoseklumą skirtinguose diegimuose.

Kurti automatizuotus formų skaitytuvus

Sujungiant MonkeyOCR teksto detekciją su pozicinių duomenų (ribų dėžutėmis) informacija, kūrėjai gali sukurti išmanius formų skaitytuvus, kurie suranda laukus (pvz., „Vardas“, „Data“, „Suma“) ir išgauna susijusius duomenis. Tai puikiai tinka mokesčių dokumentams, medicinos formoms ar apklausoms.