Nyílt forráskódú Python API az OCR képességek integrálásához
Nyílt forráskódú Python könyvtár, amely lehetővé teszi a szoftverfejlesztők számára, hogy az optikai karakterfelismerő (OCR) képességeket egyszerűen integrálják alkalmazásaikba.
A PaddleOCR egy hatékony, nyílt forráskódú Python-könyvtár, amely lehetővé teszi a szoftverfejlesztők számára, hogy könnyedén integrálják az optikai karakterfelismerő (OCR) képességeket Python-alkalmazásaikba. A PaddlePaddle, egy nyílt forráskódú mély tanulási platform tetejére épül, és a legmodernebb mélytanulási modelleket használja a nagy pontosság és teljesítmény elérése érdekében. A PaddleOCR leegyszerűsíti az OCR-folyamatot azáltal, hogy magas szintű API-t biztosít, amely sok alacsony szintű részletet absztrahál, így a fejlesztők könnyedén adhatnak hozzá OCR-képességeket alkalmazásaikhoz.
A PaddleOCR teljes körű támogatást nyújtott a nyelvek és szkriptek széles skálájához. Jelenleg több mint 80 különböző nyelvet támogat, beleértve az arab, kínai, angol, francia, német, japán, koreai, orosz, spanyol és sok más nyelvet. Ez értékes eszközzé teszi a fejlesztők számára, akiknek többnyelvű tartalommal kell dolgozniuk. A nagy teljesítményű OCR képességeken túl a könyvtár számos hasznos segédprogramot is tartalmaz a képekkel és szövegekkel való munkához. Tartalmaz például olyan eszközöket a kép előfeldolgozásához, mint a torzítás és a binarizálás, valamint az utófeldolgozó eszközöket az OCR-kimenet pontosságának javítására.
A PaddleOCR számos különböző OCR-modellt kínál, amelyek mindegyike különböző felhasználási esetekre van optimalizálva. Például a Szövegészlelési modellt a szöveges régiók megkeresésére és a képből való kinyerésére használják, míg a Szövegfelismerési modellt a tényleges szöveg felismerésére használják ezeken a régiókon belül. Van egy Model Ensemble funkció is, amely lehetővé teszi a fejlesztők számára, hogy több modellt kombináljanak a még nagyobb pontosság elérése érdekében. Összességében a PaddleOCR egy hatékony és könnyen használható könyvtár, amellyel OCR-képességeket adhat hozzá Python-alkalmazásaihoz. A nyelvek és szkriptek széles skálájának támogatása, valamint testreszabható modelljei és utófeldolgozó eszközei értékes eszközzé teszik az OCR-rel dolgozó fejlesztők számára.
Kezdő lépések a PaddleOCR-rel
A PaddleOCR telepítésének javasolt módja a pip használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez
Telepítse a PaddleOCR-t pip-en keresztül
Telepítse a PaddleOCR-t a pip segítségével
pip install paddleocr
Kézzel is telepítheti; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.
Képszöveg felismerés a PaddleOCR API-n keresztül
A képszövegfelismerés az a folyamat, amely során szöveget vonnak ki a képekből. Hasznos technika különféle alkalmazásokhoz, mint például a dokumentumok szkenneléséhez, a digitalizáláshoz és az OCR-hez (Optical Character Recognition). A nyílt forráskódú OCR (Optical Character Recognition) API a legmodernebb OCR-modelleket kínálja, amelyek képesek felismerni a szöveget különféle képekről, beleértve a beolvasott dokumentumokat, képernyőképeket és fényképeket. A könyvtár számos, a képszöveg-felismeréssel kapcsolatos fontos funkciót támogat, mint például a képek betöltése, az OCR-modell inicializálása, a szövegrész azonosítása a képen, a szöveg felismerése a képből, a szöveg kinyerése az eredményből és még sok más. A következő példa bemutatja, hogyan lehet szöveget felismerni egy képből Python alkalmazásokban.
Képszöveg-felismerés végrehajtása Python-projektekben
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
OCR-dokumentumfelismerés Python API használatával
A dokumentumfelismerés az OCR egyik kiemelkedő kutatási területe. Életünk során szinte minden nap használunk dokumentumokat. Amikor a szoftverfejlesztők OCR-t alkalmaznak egy dokumentumon, az fontos információkat kérhet le, űrlapmezőket tud lekérni, elrendezést elemezni, digitálisan tárolni és régi kéziratokat is elolvasni. A nyílt forráskódú PaddleOCR könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy különféle típusú dokumentumokat töltsenek be, OCR-műveleteket hajtsanak végre, valamint Python kóddal felismerjenek és kivonjanak belőle szöveget. A szövegfelismerés nagyon pontos, és a könyvtár könnyen és pontosan képes felismerni a speciális karaktereket és szóközöket.
OCR-dokumentumfelismerésF végrehajtása Python API használatával
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Táblázatfelismerés támogatása a Python alkalmazásokon belül
A nyílt forráskódú PaddleOCR könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy felismerjék a táblázat adatait Python-alkalmazásaikban. A táblázatfelismerés főként három modellt tartalmaz: egysoros szövegészlelés-DB, egysoros szövegfelismerés-CRNN és táblázatstruktúra, valamint cellakoordináták előrejelzése-SLANet. A következő példa bemutatja, hogyan lehet felismerni a táblázatot tartalmazó képet. A következő példa bemutatja, hogyan kell használni a draw_ocr metódust, amely beveszi a képet, a határolókereteket, a szövegeket, a pontszámokat és a betűtípusfájl elérési útját. Egy képet ad vissza a határolókeretekkel és az észlelt szöveggel. A képet a show módszerrel jelenítheti meg.
Kép betöltése és szöveg észlelése benne Python API-n keresztül
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()