Nyílt forráskódú Python API intelligens OCR alkalmazások építéséhez

Ingyenes Python OCR API a képekből történő szövegdetektáláshoz és -felismeréshez, beleértve a természetes jeleneteket, űrlapokat és beolvasott dokumentumokat Python alkalmazásokban.

Mi az a MonkeyOCR?

MonkeyOCR egy fejlett, végponttól végpontig terjedő optikai karakterfelismerő (OCR) rendszer, amely mélytanuláson alapul, és olyan szoftverfejlesztőknek nyújt erőteljes és rugalmas megoldást, akik hatékony eszközt keresnek. Yuliang Liu fejlesztette, és lehetővé teszi a szöveg pontos detektálását és felismerését különféle forrásokból, beleértve a természetes jeleneteket, űrlapokat és beolvasott dokumentumokat. Moduláris és skálázható architektúrája a legmodernebb mélytanulási technikákat ötvözi egy robusztus inferencia csővezetékkel, így kiválóan alkalmas valós szövegfelismerési feladatokra. Gyakorlati alkalmazások közé tartozik a számlák beolvasása, személyi igazolványok olvasása, táblák szövegének kinyerése, valamint többnyelvű OCR vagy PDF‑adatcsővezetékek építése.

A maximális rugalmasságra tervezve a MonkeyOCR lehetővé teszi a szoftvermérnökök számára, hogy kereskedelmi OCR motoroktól független intelligens dokumentumfeldolgozó rendszereket hozzanak létre. Számos fejlett funkcióval rendelkezik, például teljesen moduláris OCR csővezetékkel, egyszerű YAML konfigurációs fájllal és hatékony kötegelt inferencia támogatással. A rendszer pontos szövegdoboz kimenetet ad koordinátákkal, a modern DBNet++ detektáló és a CRNN felismerő modellek felhasználásával, mindezt egy konfigurálható elő‑ és utófeldolgozási keretrendszerben. Ez a moduláris tervezés, a korszerű modellek támogatása és a könnyű konfigurálhatóság kombinációja teszi a MonkeyOCR‑t ideálissá összetett, valós alkalmazások építéséhez – a vállalati dokumentumautomatizálástól a mobil alapú jelenet‑szövegfelismerésig.

Áttekintés

A MonkeyOCR funkcióinak áttekintése.

Funkciók áttekintése

OCR alkalmazások építése
OCR képességek hozzáadása
Képeszöveg felismerése
Szöveges képek konvertálása
Felismerett betűtípus szöveg
Egyéb nyelvek
OCR alkalmazások létrehozása
Mentés böngészőbe
Szöveg kinyerése
Többszálú támogatás

MonkeyOCR

A MonkeyOCR támogatja az alább felsorolt népszerű képformátumokat.

Olvasó

PNG, JPEG, BMP, TIFF, TGA, DICOM

Író

PNG, JPEG, BMP, TIFF

MonkeyOCR

Platformfüggetlenség

A MonkeyOCR működik Python 2.7‑től felfelé.

Python 2.7 és újabb verziók.

MonkeyOCR

Első lépések a MonkeyOCR‑val

A MonkeyOCR telepítésének ajánlott módja a pip használata. Kérjük, a következő parancsot használd a zökkenőmentes telepítéshez.

Telepítsd a MonkeyOCR‑t pip‑el

 pip install MonkeyOCR

Telepítsd a MonkeyOCR‑t GitHub‑ról

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Manuálisan is telepítheted; a legújabb kiadási fájlokat közvetlenül a GitHub tárolóból töltheted le.

Szöveg kinyerése egy nyugta képből Python‑ban

Az nyílt forráskódú MonkeyOCR egy végponttól végpontig terjedő optikai karakterfelismerő rendszer, amely mélytanulási technikákon alapul. Azok a szoftverfejlesztők, akik dokumentumok, személyi igazolványok, nyugták vagy rendszámok beolvasására szolgáló alkalmazásokat készítenek, közvetlenül beilleszthetik a MonkeyOCR‑t a háttérfolyamatukba. Moduláris felépítése lehetővé teszi, hogy csak a detektáló modellt vagy a felismerő modellt is használjuk a képekből származó strukturált szöveg kinyeréséhez. Az alábbi egyszerű példa bemutatja, hogyan nyerjünk ki szöveget egy nyugta képből a Python API‑val.

Hogyan nyerjünk ki szöveget egy nyugta képből a Python API‑val?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Egyedi OCR csővezetékek specifikus felhasználási esetekhez

A nyílt forráskódú MonkeyOCR könyvtár egyik legnagyobb erőssége a moduláris architektúra. A fejlesztők kombinálhatják a detektáló, felismerő és osztályozó modelleket az alkalmazásuk igényei szerint. Például egy dokumentum‑beolvasó alkalmazás könnyű DBNet detektálót és CRNN felismerőt használhat, így optimalizálva a sebességet és a pontosságot.

Egyedi OCR csővezetékek Python API‑val?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integráció üzleti szoftverekkel

A nyílt forráskódú MonkeyOCR könyvtár beilleszthető vállalati dokumentum‑munkafolyamatokba is, például az ERP vagy CRM rendszerek adatbevitelének automatizálásához. A fejlesztők a MonkeyOCR‑t a háttérben futtathatják beolvasott PDF‑ek vagy felhasználók által feltöltött képes dokumentumok feldolgozására, automatikusan kinyerve a strukturált információkat. A MonkeyOCR‑t egy config.yaml‑val konfigurálva a csapatok konzisztenciát tarthatnak különböző telepítések között.

Automatizált űrlap‑olvasók építése

A MonkeyOCR szöveg‑detektálását és a pozíciós adatokat (körülhatároló dobozok) kombinálva a fejlesztők intelligens űrlap‑olvasókat hozhatnak létre, amelyek megtalálják a mezőket (pl. „Név”, „Dátum”, „Összeg”) és kinyerik a hozzájuk tartozó adatokat. Ideális adóbevallások, orvosi űrlapok vagy felmérések esetén.