Interfejs API języka Python typu open source do integracji możliwości OCR
Biblioteka języka Python typu open source, która umożliwia twórcom oprogramowania łatwą integrację funkcji optycznego rozpoznawania znaków (OCR) z ich aplikacjami.
PaddleOCR to potężna biblioteka języka Python o otwartym kodzie źródłowym, która umożliwia twórcom oprogramowania łatwą integrację funkcji optycznego rozpoznawania znaków (OCR) z aplikacjami w języku Python. Jest zbudowany na bazie PaddlePaddle, platformy głębokiego uczenia się typu open source i wykorzystuje najnowocześniejsze modele głębokiego uczenia się, aby osiągnąć wysoką dokładność i wydajność. PaddleOCR upraszcza proces OCR, udostępniając interfejs API wysokiego poziomu, który wyodrębnia wiele szczegółów niskiego poziomu, ułatwiając programistom dodawanie funkcji OCR do swoich aplikacji.
PaddleOCR zapewnia pełną obsługę szerokiej gamy języków i skryptów. Obecnie obsługuje ponad 80 różnych języków, w tym arabski, chiński, angielski, francuski, niemiecki, japoński, koreański, rosyjski, hiszpański i wiele innych. Dzięki temu jest to cenne narzędzie dla programistów, którzy muszą pracować z treściami wielojęzycznymi. Oprócz potężnych możliwości OCR, biblioteka zawiera także szereg przydatnych narzędzi do pracy z obrazami i tekstem. Zawiera na przykład narzędzia do wstępnego przetwarzania obrazu, takie jak prostowanie i binaryzacja, a także narzędzia do przetwarzania końcowego w celu poprawy dokładności wyniku OCR.
PaddleOCR udostępnia kilka różnych modeli OCR, każdy zoptymalizowany pod kątem różnych zastosowań. Na przykład model wykrywania tekstu służy do lokalizowania i wyodrębniania obszarów tekstowych z obrazu, podczas gdy model rozpoznawania tekstu służy do rozpoznawania rzeczywistego tekstu w tych obszarach. Dostępna jest również funkcja Model Ensemble, która umożliwia programistom łączenie wielu modeli w celu osiągnięcia jeszcze większej dokładności. Ogólnie rzecz biorąc, PaddleOCR to potężna i łatwa w użyciu biblioteka umożliwiająca dodawanie funkcji OCR do aplikacji w języku Python. Obsługa szerokiej gamy języków i skryptów, a także konfigurowalne modele i narzędzia do przetwarzania końcowego sprawiają, że jest to cenne narzędzie dla programistów pracujących z OCR.
Pierwsze kroki z PaddleOCR
Zalecanym sposobem instalacji PaddleOCR jest użycie pip. Aby instalacja przebiegła bezproblemowo
, użyj poniższego poleceniaZainstaluj PaddleOCR przez pip
Install PaddleOCR via pip
pip install paddleocr
Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.
Rozpoznawanie tekstu obrazu poprzez API PaddleOCR
Rozpoznawanie tekstu obrazu to proces wyodrębniania tekstu z obrazów. Jest to przydatna technika w różnych zastosowaniach, takich jak skanowanie dokumentów, digitalizacja i OCR (optyczne rozpoznawanie znaków). Otwarty interfejs API OCR (Optical Character Recognition) zapewnia zestaw najnowocześniejszych modeli OCR, które potrafią rozpoznawać tekst z różnych obrazów, w tym zeskanowanych dokumentów, zrzutów ekranu i fotografii. Biblioteka obsługuje kilka ważnych funkcji związanych z rozpoznawaniem tekstu obrazu, takich jak ładowanie obrazów, inicjowanie modelu OCR, identyfikacja obszaru tekstowego na obrazie, rozpoznawanie tekstu z obrazu, wyodrębnianie tekstu z wyniku i wiele innych. Poniższy przykład pokazuje, jak rozpoznać tekst z obrazu w aplikacjach Pythona.
Wykonuj rozpoznawanie tekstu obrazu w projektach Pythona
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Rozpoznawanie dokumentów OCR przy użyciu API języka Python
Rozpoznawanie dokumentów to jeden z najważniejszych obszarów badań w zakresie OCR. Dokumenty są używane niemal codziennie w naszym życiu. Gdy twórcy oprogramowania zastosują OCR do dokumentu, może on odzyskać ważne informacje, odzyskać pola formularzy, przeanalizować układ, przechowywać cyfrowo, a także czytać stare rękopisy. Biblioteka PaddleOCR o otwartym kodzie źródłowym umożliwia twórcom oprogramowania ładowanie różnych typów dokumentów, wykonywanie operacji OCR oraz rozpoznawanie i wyodrębnianie z nich tekstu za pomocą kodu Python. Rozpoznawanie tekstu jest bardzo dokładne, a biblioteka może z łatwością dokładnie wykryć znaki specjalne i spacje.
Przeprowadź rozpoznawanie dokumentów OCRF przy użyciu interfejsu API języka Python
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Obsługa rozpoznawania tabel w aplikacjach Pythona
Biblioteka PaddleOCR o otwartym kodzie źródłowym umożliwia twórcom oprogramowania rozpoznawanie danych tabeli w ich aplikacjach w języku Python. Rozpoznawanie tabeli obejmuje głównie trzy modele, wykrywanie tekstu jednowierszowego - DB, rozpoznawanie tekstu jednowierszowego - CRNN i strukturę tabeli, a także przewidywanie współrzędnych komórek - SLANet. Poniższy przykład pokazuje, jak rozpoznać obraz zawierający tabelę. Poniższy przykład pokazuje, jak używać metody remis_ocr, która pobiera obraz, ramki ograniczające, teksty, partyturę i ścieżkę do pliku czcionki. Zwraca obraz z obwiedniami i wykrytym tekstem. Możesz wyświetlić obraz, korzystając z metody pokazu.
Załaduj obraz i wykryj w nim tekst za pomocą interfejsu API języka Python
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()