Atvērtā koda Python API, lai izveidotu gudras OCR lietotnes
Bezmaksas Python OCR API, lai noteiktu un atpazītu tekstu no attēliem, tostarp dabiskām ainavām, veidlapām un skenētiem dokumentiem Python lietotnēs.
Kas ir MonkeyOCR?
MonkeyOCR ir progresīvs, no sākuma līdz beigām balstīts optiskās rakstzīmju atpazīšanas (OCR) sistēma, kas izveidota, izmantojot dziļo mācīšanos, un paredzēta programmatūras izstrādātājiem, kuri meklē jaudīgu un elastīgu risinājumu. To izstrādājis Yuliang Liu, šī bibliotēka ļauj precīzi noteikt un atpazīt tekstu no dažādiem avotiem, tostarp dabiskām ainavām, veidlapām un skenētiem dokumentiem. Tās modulārā un mērogojama arhitektūra apvieno jaunākās dziļās mācīšanās tehnoloģijas ar stabilu izpildes cauruli, padarot to īpaši piemērotu reālu uzdevumu teksta atpazīšanai. Praktiskās lietojumprogrammas svārstās no rēķinu skenēšanas un ID kartes nolasīšanas līdz teksta izvilkšanai no zīmju un daudzvalodu OCR vai PDF‑uz‑datu caurulēm.
Izstrādāta maksimālai elastībai, MonkeyOCR ļauj programmatūras inženieriem izveidot inteliģentas dokumentu apstrādes sistēmas, neatkarīgi no komerciālām OCR dzinējām. Tā piedāvā virkni progresīvu funkciju, piemēram, pilnīgi modulāru OCR cauruli, vienkāršu YAML konfigurācijas failu un efektīvu grupveida izpildes atbalstu. Sistēma nodrošina precīzus teksta kastes izvades datus ar koordinātēm, izmantojot modernus modeļus, piemēram, DBNet++ detektēšanai un CRNN atpazīšanai, visus konfigurējama priekš‑ un pēcapstrādes ietvarā. Šī modulārā dizaina, mūsdienīgu modeļu atbalsta un konfigurācijas vienkāršības kombinācija padara MonkeyOCR par ideālu izvēli sarežģītu, reālu lietojumu izveidei — no uzņēmuma dokumentu automatizācijas līdz mobilajām ainu teksta atpazīšanas lietojumprogrammām.
Sākšana ar MonkeyOCR
Ieteicamais veids, kā instalēt MonkeyOCR, ir izmantot pip. Lūdzu, izmantojiet šādu komandu, lai veiktu instalāciju.
Instalēt MonkeyOCR, izmantojot pip
pip install MonkeyOCR Instalēt MonkeyOCR, izmantojot GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git Jūs varat arī instalēt to manuāli; lejupielādējiet jaunākos izlaiduma failus tieši no GitHub krātuves.
Teksta izvilkšana no kvīts attēla, izmantojot Python
Atvērtā koda MonkeyOCR ir no sākuma līdz beigām balstīta optiskās rakstzīmju atpazīšanas (OCR) sistēma, kas balstīta uz dziļās mācīšanās tehnoloģijām. Programmatūras izstrādātāji, kas veido lietotnes, kas skenē dokumentus, ID kartes, kvītis vai numurzīmes, var integrēt MonkeyOCR tieši savā backend caurulē. Pateicoties modulārajai struktūrai, varat izmantot tikai detektēšanas modeli vai kombinēt to ar atpazīšanas modeli, lai izvilktu strukturētu tekstu no attēliem. Šeit ir vienkāršs piemērs, kas parāda, kā izvilkt tekstu no kvīts attēla, izmantojot Python API.
Kā izvilkt tekstu no kvīts attēla, izmantojot Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Pielāgotas OCR caurules konkrētām lietošanas gadījumiem
Viena no lielākajām atvērtā koda MonkeyOCR bibliotēkas stiprajām pusēm ir tās modulārā arhitektūra. Programmatūras izstrādātāji var brīvi kombinēt komponentes — detektēšanas, atpazīšanas un klasifikācijas modeļus — atbilstoši savām lietojumprogrammas prasībām. Piemēram, dokumentu skenēšanas lietotne var izmantot vieglu modeli, piemēram, DBNet detektēšanai, un CRNN atpazīšanai, lai optimizētu gan ātrumu, gan precizitāti.
Pielāgotas OCR caurules, izmantojot Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
Integrācija ar biznesa programmatūru
Atvērtā koda MonkeyOCR bibliotēku var arī integrēt uzņēmuma dokumentu darba plūsmās, piemēram, automatizējot datu ievadi ERP vai CRM sistēmās. Programmatūras izstrādātāji var palaist MonkeyOCR fonā, lai skenētu PDF vai attēlu formāta dokumentus, ko augšupielādē lietotāji, automātiski izguvē struktūru informāciju. Konfigurējot MonkeyOCR ar config.yaml, komandas var nodrošināt konsekvenci dažādās izvietošanas vidēs.
Izveidot automatizētus veidlapu lasītājus
Apvienojot MonkeyOCR teksta detektēšanu ar pozīcijas datiem (aprobežu kastēm), izstrādātāji var izveidot inteliģentus veidlapu lasītājus, kas atrod laukus (piem., “Vārds”, “Datums”, “Summa”) un izguvē saistītos datus. Tas ir ideāli piemērots nodokļu dokumentiem, medicīnas veidlapām vai aptaujām.