API Python nguồn mở để tích hợp khả năng OCR
Thư viện Python nguồn mở cho phép các nhà phát triển phần mềm dễ dàng tích hợp khả năng nhận dạng ký tự quang học (OCR) vào ứng dụng của họ.
PaddleOCR là một thư viện Python mã nguồn mở mạnh mẽ cho phép các nhà phát triển phần mềm dễ dàng tích hợp các chức năng nhận dạng ký tự quang học (OCR) vào các ứng dụng Python của họ. Nó được xây dựng trên PaddlePaddle, một nền tảng học sâu mã nguồn mở và sử dụng các mô hình học sâu tiên tiến để đạt được độ chính xác và hiệu suất cao. PaddleOCR đơn giản hóa quy trình OCR bằng cách cung cấp một API cấp cao giúp tóm tắt nhiều chi tiết cấp thấp, giúp các nhà phát triển dễ dàng thêm chức năng OCR vào ứng dụng của họ.
PaddleOCR đã cung cấp hỗ trợ hoàn chỉnh cho nhiều ngôn ngữ và tập lệnh. Hiện tại, nó hỗ trợ hơn 80 ngôn ngữ khác nhau, bao gồm tiếng Ả Rập, tiếng Trung, tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Nhật, tiếng Hàn, tiếng Nga, tiếng Tây Ban Nha và nhiều ngôn ngữ khác. Điều này khiến nó trở thành một công cụ hữu ích cho các nhà phát triển cần làm việc với nội dung đa ngôn ngữ. Ngoài các chức năng OCR mạnh mẽ, thư viện còn bao gồm một số tiện ích hữu ích để làm việc với hình ảnh và văn bản. Ví dụ, nó bao gồm các công cụ để xử lý trước hình ảnh, chẳng hạn như làm lệch hướng và nhị phân hóa, cũng như các công cụ xử lý hậu kỳ để cải thiện độ chính xác của đầu ra OCR.
PaddleOCR cung cấp một số mô hình OCR khác nhau, mỗi mô hình được tối ưu hóa cho các trường hợp sử dụng khác nhau. Ví dụ, mô hình Phát hiện văn bản được sử dụng để định vị và trích xuất các vùng văn bản từ hình ảnh, trong khi mô hình Nhận dạng văn bản được sử dụng để nhận dạng văn bản thực tế trong các vùng đó. Ngoài ra còn có tính năng Model Ensemble cho phép các nhà phát triển kết hợp nhiều mô hình để đạt được độ chính xác cao hơn nữa. Nhìn chung, PaddleOCR là một thư viện mạnh mẽ và dễ sử dụng để thêm các chức năng OCR vào các ứng dụng Python của bạn. Hỗ trợ nhiều ngôn ngữ và tập lệnh, cũng như các mô hình có thể tùy chỉnh và các công cụ xử lý hậu kỳ, khiến nó trở thành một công cụ có giá trị đối với các nhà phát triển làm việc với OCR.
Bắt đầu với PaddleOCR
Cách được khuyến nghị để cài đặt PaddleOCR là sử dụng pip. Vui lòng sử dụng lệnh sau để cài đặt trơn tru
Cài đặt PaddleOCR qua pip
Cài đặt PaddleOCR qua pip
pip install paddleocr
Bạn cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.
Nhận dạng văn bản hình ảnh thông qua API PaddleOCR
Nhận dạng văn bản hình ảnh là quá trình trích xuất văn bản từ hình ảnh. Đây là một kỹ thuật hữu ích cho nhiều ứng dụng khác nhau như quét tài liệu, số hóa và OCR (Nhận dạng ký tự quang học). API OCR (Nhận dạng ký tự quang học) mã nguồn mở cung cấp một bộ các mô hình OCR hiện đại có thể nhận dạng văn bản từ nhiều hình ảnh khác nhau, bao gồm tài liệu được quét, ảnh chụp màn hình và ảnh chụp. Thư viện hỗ trợ một số tính năng quan trọng liên quan đến nhận dạng văn bản hình ảnh như tải hình ảnh, Khởi tạo mô hình OCR, xác định vùng văn bản trong hình ảnh, Nhận dạng văn bản từ hình ảnh, trích xuất văn bản từ kết quả và nhiều tính năng khác. Ví dụ sau đây cho thấy cách nhận dạng văn bản từ hình ảnh bên trong các ứng dụng Python.
Thực hiện Nhận dạng Văn bản Hình ảnh bên trong Dự án Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Nhận dạng tài liệu OCR bằng Python API
Nhận dạng tài liệu là một trong những lĩnh vực nghiên cứu nổi bật của OCR. Tài liệu được sử dụng hầu như hàng ngày trong cuộc sống của chúng ta. Khi các nhà phát triển phần mềm áp dụng OCR vào một tài liệu, nó có thể truy xuất thông tin quan trọng, truy xuất các trường biểu mẫu, phân tích bố cục, lưu trữ kỹ thuật số và cũng để đọc các bản thảo cũ. Thư viện PaddleOCR nguồn mở cho phép các nhà phát triển phần mềm tải nhiều loại tài liệu khác nhau, thực hiện các hoạt động OCR và nhận dạng và trích xuất văn bản từ đó bằng mã Python. Nhận dạng văn bản rất chính xác và thư viện có thể dễ dàng phát hiện các ký tự đặc biệt và khoảng trắng một cách chính xác.
Thực hiện Nhận dạng Tài liệu OCR bằng Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Hỗ trợ nhận dạng bảng bên trong ứng dụng Python
Thư viện PaddleOCR nguồn mở cho phép các nhà phát triển phần mềm nhận dạng dữ liệu bảng bên trong ứng dụng Python của họ. Nhận dạng bảng chủ yếu bao gồm ba mô hình, phát hiện văn bản dòng đơn-DB, nhận dạng văn bản dòng đơn-CRNN và cấu trúc bảng cũng như dự đoán tọa độ ô-SLANet. Ví dụ sau đây cho thấy cách nhận dạng hình ảnh chứa bảng. Ví dụ sau đây cho thấy cách sử dụng phương thức draw_ocr lấy hình ảnh, hộp giới hạn, văn bản, điểm số và đường dẫn đến tệp phông chữ. Nó trả về một hình ảnh có hộp giới hạn và văn bản được phát hiện. Bạn có thể hiển thị hình ảnh bằng phương thức show.
Tải hình ảnh và phát hiện văn bản bên trong thông qua Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()