1. Produkty
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

Interfejs API języka Python typu open source do integracji możliwości OCR

Biblioteka języka Python typu open source, która umożliwia twórcom oprogramowania łatwą integrację funkcji optycznego rozpoznawania znaków (OCR) z ich aplikacjami.

PaddleOCR to potężna biblioteka języka Python o otwartym kodzie źródłowym, która umożliwia twórcom oprogramowania łatwą integrację funkcji optycznego rozpoznawania znaków (OCR) z aplikacjami w języku Python. Jest zbudowany na bazie PaddlePaddle, platformy głębokiego uczenia się typu open source i wykorzystuje najnowocześniejsze modele głębokiego uczenia się, aby osiągnąć wysoką dokładność i wydajność. PaddleOCR upraszcza proces OCR, udostępniając interfejs API wysokiego poziomu, który wyodrębnia wiele szczegółów niskiego poziomu, ułatwiając programistom dodawanie funkcji OCR do swoich aplikacji.

PaddleOCR zapewnia pełną obsługę szerokiej gamy języków i skryptów. Obecnie obsługuje ponad 80 różnych języków, w tym arabski, chiński, angielski, francuski, niemiecki, japoński, koreański, rosyjski, hiszpański i wiele innych. Dzięki temu jest to cenne narzędzie dla programistów, którzy muszą pracować z treściami wielojęzycznymi. Oprócz potężnych możliwości OCR, biblioteka zawiera także szereg przydatnych narzędzi do pracy z obrazami i tekstem. Zawiera na przykład narzędzia do wstępnego przetwarzania obrazu, takie jak prostowanie i binaryzacja, a także narzędzia do przetwarzania końcowego w celu poprawy dokładności wyniku OCR.

PaddleOCR udostępnia kilka różnych modeli OCR, każdy zoptymalizowany pod kątem różnych zastosowań. Na przykład model wykrywania tekstu służy do lokalizowania i wyodrębniania obszarów tekstowych z obrazu, podczas gdy model rozpoznawania tekstu służy do rozpoznawania rzeczywistego tekstu w tych obszarach. Dostępna jest również funkcja Model Ensemble, która umożliwia programistom łączenie wielu modeli w celu osiągnięcia jeszcze większej dokładności. Ogólnie rzecz biorąc, PaddleOCR to potężna i łatwa w użyciu biblioteka umożliwiająca dodawanie funkcji OCR do aplikacji w języku Python. Obsługa szerokiej gamy języków i skryptów, a także konfigurowalne modele i narzędzia do przetwarzania końcowego sprawiają, że jest to cenne narzędzie dla programistów pracujących z OCR.

Previous Next

Pierwsze kroki z PaddleOCR

Zalecanym sposobem instalacji PaddleOCR jest użycie pip. Aby instalacja przebiegła bezproblemowo

, użyj poniższego polecenia

Zainstaluj PaddleOCR przez pip

 

Install PaddleOCR via pip

 pip install paddleocr 

Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Rozpoznawanie tekstu obrazu poprzez API PaddleOCR

Rozpoznawanie tekstu obrazu to proces wyodrębniania tekstu z obrazów. Jest to przydatna technika w różnych zastosowaniach, takich jak skanowanie dokumentów, digitalizacja i OCR (optyczne rozpoznawanie znaków). Otwarty interfejs API OCR (Optical Character Recognition) zapewnia zestaw najnowocześniejszych modeli OCR, które potrafią rozpoznawać tekst z różnych obrazów, w tym zeskanowanych dokumentów, zrzutów ekranu i fotografii. Biblioteka obsługuje kilka ważnych funkcji związanych z rozpoznawaniem tekstu obrazu, takich jak ładowanie obrazów, inicjowanie modelu OCR, identyfikacja obszaru tekstowego na obrazie, rozpoznawanie tekstu z obrazu, wyodrębnianie tekstu z wyniku i wiele innych. Poniższy przykład pokazuje, jak rozpoznać tekst z obrazu w aplikacjach Pythona.

Wykonuj rozpoznawanie tekstu obrazu w projektach Pythona

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

Rozpoznawanie dokumentów OCR przy użyciu API języka Python

Rozpoznawanie dokumentów to jeden z najważniejszych obszarów badań w zakresie OCR. Dokumenty są używane niemal codziennie w naszym życiu. Gdy twórcy oprogramowania zastosują OCR do dokumentu, może on odzyskać ważne informacje, odzyskać pola formularzy, przeanalizować układ, przechowywać cyfrowo, a także czytać stare rękopisy. Biblioteka PaddleOCR o otwartym kodzie źródłowym umożliwia twórcom oprogramowania ładowanie różnych typów dokumentów, wykonywanie operacji OCR oraz rozpoznawanie i wyodrębnianie z nich tekstu za pomocą kodu Python. Rozpoznawanie tekstu jest bardzo dokładne, a biblioteka może z łatwością dokładnie wykryć znaki specjalne i spacje.

Przeprowadź rozpoznawanie dokumentów OCRF przy użyciu interfejsu API języka Python

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Obsługa rozpoznawania tabel w aplikacjach Pythona

Biblioteka PaddleOCR o otwartym kodzie źródłowym umożliwia twórcom oprogramowania rozpoznawanie danych tabeli w ich aplikacjach w języku Python. Rozpoznawanie tabeli obejmuje głównie trzy modele, wykrywanie tekstu jednowierszowego - DB, rozpoznawanie tekstu jednowierszowego - CRNN i strukturę tabeli, a także przewidywanie współrzędnych komórek - SLANet. Poniższy przykład pokazuje, jak rozpoznać obraz zawierający tabelę. Poniższy przykład pokazuje, jak używać metody remis_ocr, która pobiera obraz, ramki ograniczające, teksty, partyturę i ścieżkę do pliku czcionki. Zwraca obraz z obwiedniami i wykrytym tekstem. Możesz wyświetlić obraz, korzystając z metody pokazu.

Załaduj obraz i wykryj w nim tekst za pomocą interfejsu API języka Python

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Polski