Atvērtā koda Python API, lai izveidotu gudras OCR lietotnes

Bezmaksas Python OCR API, lai noteiktu un atpazītu tekstu no attēliem, tostarp dabiskām ainavām, veidlapām un skenētiem dokumentiem Python lietotnēs.

Kas ir MonkeyOCR?

MonkeyOCR ir progresīvs, no sākuma līdz beigām balstīts optiskās rakstzīmju atpazīšanas (OCR) sistēma, kas izveidota, izmantojot dziļo mācīšanos, un paredzēta programmatūras izstrādātājiem, kuri meklē jaudīgu un elastīgu risinājumu. To izstrādājis Yuliang Liu, šī bibliotēka ļauj precīzi noteikt un atpazīt tekstu no dažādiem avotiem, tostarp dabiskām ainavām, veidlapām un skenētiem dokumentiem. Tās modulārā un mērogojama arhitektūra apvieno jaunākās dziļās mācīšanās tehnoloģijas ar stabilu izpildes cauruli, padarot to īpaši piemērotu reālu uzdevumu teksta atpazīšanai. Praktiskās lietojumprogrammas svārstās no rēķinu skenēšanas un ID kartes nolasīšanas līdz teksta izvilkšanai no zīmju un daudzvalodu OCR vai PDF‑uz‑datu caurulēm.

Izstrādāta maksimālai elastībai, MonkeyOCR ļauj programmatūras inženieriem izveidot inteliģentas dokumentu apstrādes sistēmas, neatkarīgi no komerciālām OCR dzinējām. Tā piedāvā virkni progresīvu funkciju, piemēram, pilnīgi modulāru OCR cauruli, vienkāršu YAML konfigurācijas failu un efektīvu grupveida izpildes atbalstu. Sistēma nodrošina precīzus teksta kastes izvades datus ar koordinātēm, izmantojot modernus modeļus, piemēram, DBNet++ detektēšanai un CRNN atpazīšanai, visus konfigurējama priekš‑ un pēcapstrādes ietvarā. Šī modulārā dizaina, mūsdienīgu modeļu atbalsta un konfigurācijas vienkāršības kombinācija padara MonkeyOCR par ideālu izvēli sarežģītu, reālu lietojumu izveidei — no uzņēmuma dokumentu automatizācijas līdz mobilajām ainu teksta atpazīšanas lietojumprogrammām.

Ātrā pārskats

Pārskats par MonkeyOCR funkcijām.

Funkciju pārskats

Izveidot OCR lietotnes
Pievienot OCR iespējas
Atpazīt attēla tekstu
Pārveidot teksta attēlus
Atpazīts fonta teksts
Citas valodas
Izveidot OCR lietotnes
Saglabāt pārlūkā
Izvilkt tekstu
Vairāku pavedienu atbalsts

MonkeyOCR

MonkeyOCR atbalsta populārus attēlu failu formātus, kas norādīti zemāk.

Lasītājs

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rakstītājs

PNG, JPEG, BMP, TIFF

MonkeyOCR

Platformas neatkarība

MonkeyOCR var darboties ar Python 2.7 un jaunākiem.

Python 2.7 un jaunāki.

MonkeyOCR

Sākšana ar MonkeyOCR

Ieteicamais veids, kā instalēt MonkeyOCR, ir izmantot pip. Lūdzu, izmantojiet šādu komandu, lai veiktu instalāciju.

Instalēt MonkeyOCR, izmantojot pip

 pip install MonkeyOCR

Instalēt MonkeyOCR, izmantojot GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Jūs varat arī instalēt to manuāli; lejupielādējiet jaunākos izlaiduma failus tieši no GitHub krātuves.

Teksta izvilkšana no kvīts attēla, izmantojot Python

Atvērtā koda MonkeyOCR ir no sākuma līdz beigām balstīta optiskās rakstzīmju atpazīšanas (OCR) sistēma, kas balstīta uz dziļās mācīšanās tehnoloģijām. Programmatūras izstrādātāji, kas veido lietotnes, kas skenē dokumentus, ID kartes, kvītis vai numurzīmes, var integrēt MonkeyOCR tieši savā backend caurulē. Pateicoties modulārajai struktūrai, varat izmantot tikai detektēšanas modeli vai kombinēt to ar atpazīšanas modeli, lai izvilktu strukturētu tekstu no attēliem. Šeit ir vienkāršs piemērs, kas parāda, kā izvilkt tekstu no kvīts attēla, izmantojot Python API.

Kā izvilkt tekstu no kvīts attēla, izmantojot Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Pielāgotas OCR caurules konkrētām lietošanas gadījumiem

Viena no lielākajām atvērtā koda MonkeyOCR bibliotēkas stiprajām pusēm ir tās modulārā arhitektūra. Programmatūras izstrādātāji var brīvi kombinēt komponentes — detektēšanas, atpazīšanas un klasifikācijas modeļus — atbilstoši savām lietojumprogrammas prasībām. Piemēram, dokumentu skenēšanas lietotne var izmantot vieglu modeli, piemēram, DBNet detektēšanai, un CRNN atpazīšanai, lai optimizētu gan ātrumu, gan precizitāti.

Pielāgotas OCR caurules, izmantojot Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrācija ar biznesa programmatūru

Atvērtā koda MonkeyOCR bibliotēku var arī integrēt uzņēmuma dokumentu darba plūsmās, piemēram, automatizējot datu ievadi ERP vai CRM sistēmās. Programmatūras izstrādātāji var palaist MonkeyOCR fonā, lai skenētu PDF vai attēlu formāta dokumentus, ko augšupielādē lietotāji, automātiski izguvē struktūru informāciju. Konfigurējot MonkeyOCR ar config.yaml, komandas var nodrošināt konsekvenci dažādās izvietošanas vidēs.

Izveidot automatizētus veidlapu lasītājus

Apvienojot MonkeyOCR teksta detektēšanu ar pozīcijas datiem (aprobežu kastēm), izstrādātāji var izveidot inteliģentus veidlapu lasītājus, kas atrod laukus (piem., “Vārds”, “Datums”, “Summa”) un izguvē saistītos datus. Tas ir ideāli piemērots nodokļu dokumentiem, medicīnas veidlapām vai aptaujām.