Open Source Python API pro integraci schopností OCR
Open Source Python knihovna, která umožňuje vývojářům softwaru snadno integrovat funkce optického rozpoznávání znaků (OCR) do svých aplikací.
PaddleOCR je výkonná open source knihovna Pythonu, která umožňuje vývojářům softwaru snadno integrovat funkce optického rozpoznávání znaků (OCR) do jejich aplikací Python. Je postaven na platformě PaddlePaddle, open-source platformě hlubokého učení, a využívá nejmodernější modely hlubokého učení k dosažení vysoké přesnosti a výkonu. PaddleOCR zjednodušuje proces OCR tím, že poskytuje vysokoúrovňové API, které abstrahuje mnoho nízkoúrovňových detailů, což vývojářům usnadňuje přidávání funkcí OCR do jejich aplikací.
PaddleOCR poskytuje kompletní podporu pro širokou škálu jazyků a skriptů. V současné době podporuje více než 80 různých jazyků, včetně arabštiny, čínštiny, angličtiny, francouzštiny, němčiny, japonštiny, korejštiny, ruštiny, španělštiny a mnoha dalších. Díky tomu je cenným nástrojem pro vývojáře, kteří potřebují pracovat s vícejazyčným obsahem. Kromě výkonných funkcí OCR obsahuje knihovna také řadu užitečných nástrojů pro práci s obrázky a textem. Zahrnuje například nástroje pro předběžné zpracování obrazu, jako je vyrovnání a binarizace, a také nástroje pro následné zpracování pro zlepšení přesnosti výstupu OCR.
PaddleOCR poskytuje několik různých modelů OCR, z nichž každý je optimalizován pro různé případy použití. Například model detekce textu se používá k vyhledání a extrahování oblastí textu z obrázku, zatímco model rozpoznávání textu se používá k rozpoznání skutečného textu v těchto oblastech. K dispozici je také funkce Model Ensemble, která umožňuje vývojářům kombinovat více modelů pro dosažení ještě vyšší přesnosti. Celkově je PaddleOCR výkonná a snadno použitelná knihovna pro přidávání funkcí OCR do vašich aplikací Python. Jeho podpora pro širokou škálu jazyků a skriptů, stejně jako jeho přizpůsobitelné modely a nástroje pro postprocessing z něj dělají cenný nástroj pro vývojáře pracující s OCR.
Začínáme s PaddleOCR
Doporučeným způsobem instalace PaddleOCR je použití pip. Pro bezproblémovou instalaci použijte prosím následující příkaz
Nainstalujte PaddleOCR přes pip
Nainstalujte PaddleOCR přes pip
pip install paddleocr
Můžete jej také nainstalovat ručně; stáhněte si soubory nejnovější verze přímo z úložiště GitHub.
Rozpoznávání textu obrázku prostřednictvím rozhraní PaddleOCR API
Rozpoznávání textu obrázku je proces extrahování textu z obrázků. Je to užitečná technika pro různé aplikace, jako je skenování dokumentů, digitalizace a OCR (Optical Character Recognition). Open-source OCR (Optical Character Recognition) API poskytuje sadu nejmodernějších modelů OCR, které dokážou rozpoznat text z různých obrázků, včetně naskenovaných dokumentů, snímků obrazovky a fotografií. Knihovna podporuje několik důležitých funkcí souvisejících s rozpoznáváním textu obrázku, jako je načítání obrázků, inicializace modelu OCR, identifikace oblasti textu v obrázku, rozpoznání textu z obrázku, extrahování textu z výsledku a mnoho dalších. Následující příklad ukazuje, jak rozpoznat text z obrázku v aplikacích Python.
Provádění rozpoznávání textu obrázku v projektech Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Rozpoznávání dokumentů OCR pomocí Python API
Rozpoznávání dokumentů je jednou z předních oblastí výzkumu OCR. Dokumenty se v našem životě používají téměř každý den. Když vývojáři softwaru aplikují OCR na dokument, může získat důležité informace, načíst pole formuláře, analyzovat rozvržení, uložit digitálně a také pro čtení starých rukopisů. Open-source knihovna PaddleOCR umožňuje vývojářům softwaru načítat různé typy dokumentů, provádět OCR operace a rozpoznávat a extrahovat z ní text pomocí kódu Python. Rozpoznávání textu je velmi přesné a knihovna dokáže snadno a přesně detekovat speciální znaky a mezery.
Proveďte OCR Document RecognitionF pomocí Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Podpora rozpoznávání tabulek v aplikacích Python
Open source knihovna PaddleOCR umožňuje vývojářům softwaru rozpoznat data tabulky v jejich aplikacích Python. Rozpoznávání tabulek obsahuje především tři modely, detekci jednořádkového textu-DB, rozpoznávání jednořádkového textu-CRNN a strukturu tabulky a také predikci souřadnic buněk-SLANet. Následující příklad ukazuje, jak rozpoznat obrázek, který obsahuje tabulku. Následující příklad ukazuje, jak používat metodu draw_ocr, která přebírá obrázek, ohraničovací rámečky, texty, skóre a cestu k souboru s písmem. Vrátí obrázek s ohraničujícími rámečky a detekovaným textem. Obrázek můžete zobrazit pomocí metody show.
Načíst obrázek a zjistit v něm text pomocí rozhraní Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()