Thư viện PHP để Trích xuất Văn bản từ Hình ảnh bằng Nhiều Ngôn ngữ

API Nhận dạng Ký tự Quang học (OCR) PHP nguồn mở cho phép Tải & Quét Hình ảnh hoặc Tài liệu, Nhận dạng & Trích xuất Văn bản từ Hình ảnh bằng Nhiều Ngôn ngữ trong các Ứng dụng PHP.

Công nghệ Nhận dạng Ký tự Quang học (OCR) đã trở thành một công cụ thiết yếu để trích xuất văn bản từ hình ảnh và tài liệu trong thời đại hiện nay. Với sự bùng nổ của chuyển đổi số, nhu cầu về các giải pháp OCR hiệu quả và chính xác chưa bao giờ cấp bách hơn. OcrPHP là một thư viện OCR nguồn mở rất mạnh mẽ, cho phép các nhà phát triển phần mềm xây dựng các ứng dụng OCR vững chắc và có khả năng mở rộng. Đây là một thư viện OCR dựa trên PHP, sử dụng engine Tesseract OCR, một công nghệ OCR được Google phát triển và được sử dụng rộng rãi, được đánh giá cao. Thư viện bao gồm nhiều tính năng, chẳng hạn như quét tài liệu, trích xuất văn bản từ hình ảnh, trích xuất văn bản theo ngôn ngữ cụ thể, trích xuất văn bản từ PDF, và nhiều hơn nữa.

Thư viện OcrPHP đã tích hợp các kỹ thuật tiền xử lý hình ảnh tiên tiến, như chỉnh góc, loại bỏ nhiễu và nhị phân hoá, nhằm nâng cao độ chính xác của OCR. Nó hỗ trợ thực hiện OCR bằng nhiều ngôn ngữ, bao gồm Tiếng Anh, Tiếng Tây Ban Nha, Tiếng Pháp, Tiếng Đức, Tiếng Ý, Tiếng Bồ Đào Nha, Tiếng Trung, Tiếng Nhật và nhiều ngôn ngữ khác. Các nhà phát triển phần mềm có thể tùy chỉnh quá trình OCR bằng cách điều chỉnh các tham số như ngôn ngữ, chế độ phân đoạn trang và cài đặt engine OCR. Thư viện còn bao gồm cơ chế xử lý lỗi mạnh mẽ để đảm bảo các thao tác OCR được thực hiện một cách suôn sẻ và hiệu quả. Với các tính năng như hỗ trợ đa ngôn ngữ, quét hình ảnh nâng cao, cấu hình tùy chỉnh và tích hợp đơn giản, nó cho phép các nhà phát triển tạo ra các công cụ nhận dạng văn bản đa năng với ít công sức và chi phí thấp.

Tổng quan

Tổng quan về các tính năng của OcrPHP.

Features Overview

Thực hiện OCR
Thêm khả năng OCR
Nhận dạng văn bản trong nhiều ngôn ngữ
Chuyển đổi hình ảnh chứa văn bản
Văn bản phông chữ đã nhận dạng
Tìm kiếm PDF
Ngôn ngữ khác
Tạo ứng dụng OCR
Lưu vào trình duyệt
Trích xuất Văn bản
Hỗ trợ đa luồng

OcrPHP

OcrPHP hỗ trợ các định dạng tệp nén phổ biến được liệt kê dưới đây.

Đọc

PNG, JPEG, BMP, TIFF, TGA, DICOM

Ghi

PNG, JPEG, BMP, TIFF

OcrPHP

Độc lập nền tảng

OcrPHP chỉ yêu cầu môi trường chạy PHP.

PHP 5.1 trở lên.

OcrPHP

Bắt đầu với OcrPHP

Cách khuyến nghị để cài đặt OcrPHP là sử dụng Composer. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

Bạn có thể tải xuống thư viện chia sẻ đã biên dịch từ Github repository.

Nhận dạng và Trích xuất Văn bản từ Hình ảnh bằng PHP

Thư viện OcrPHP nguồn mở giúp phần mềm dễ dàng tải các loại hình ảnh khác nhau và trích xuất văn bản từ những hình ảnh đó chỉ với vài dòng mã PHP. Dưới đây là một ví dụ rất đơn giản, sử dụng thư viện Imagick để tải tệp hình ảnh và tạo một thể hiện của lớp OcrPHP. Các nhà phát triển sau đó có thể đặt ngôn ngữ và cài đặt engine OCR trước khi thực hiện OCR trên hình ảnh bằng phương thức recognize(). Cuối cùng, nó in ra văn bản đã trích xuất bằng phương thức getText().

How to Extract Text from an Image using PHP Library?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Nhận dạng Văn bản trong Ngôn ngữ Cụ thể bằng PHP

Thư viện OcrPHP đã cung cấp hỗ trợ cho nhiều ngôn ngữ để thực hiện các thao tác OCR trong các ứng dụng PHP. Dù văn bản của bạn là tiếng Anh, tiếng Trung hay bất kỳ ngôn ngữ nào được hỗ trợ, OcrPHP đều có thể xử lý một cách liền mạch. Để trích xuất văn bản trong một ngôn ngữ cụ thể, truyền mã ngôn ngữ làm tham số. Đảm bảo mô hình ngôn ngữ Tesseract tương ứng đã được cài đặt. Ví dụ dưới đây cho thấy cách các nhà phát triển có thể trích xuất từ hình ảnh bằng tiếng Trung trong các ứng dụng PHP.

How to Extract Text from an Image in Chinses Language via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Xử lý Hàng loạt và Tự động hóa OCR bằng PHP

Đối với các nhà phát triển phần mềm xây dựng các ứng dụng xử lý tài liệu, xử lý hàng loạt có thể là một tính năng hữu ích. OcrPHP nguồn mở giúp các nhà phát triển dễ dàng lặp qua một thư mục chứa các tệp hình ảnh và tự động trích xuất văn bản từ mỗi tệp. Điều này hoàn hảo cho việc tự động hoá các nhiệm vụ như quét hoá đơn, biên lai hoặc sách. Dưới đây là một ví dụ rất hữu ích, quét tất cả các tệp .png trong thư mục được chỉ định, trích xuất văn bản từ mỗi tệp và in ra. Bạn có thể mở rộng để lưu kết quả vào tệp hoặc cơ sở dữ liệu, biến nó thành một công cụ mạnh mẽ cho việc xử lý tài liệu.

How to Extract Text from Multiple Images via PHP Library?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Cấu hình Tùy chỉnh & Hỗ trợ Tích hợp

OcrPHP nguồn mở là một thư viện đa năng và thân thiện với nhà phát triển, giúp đơn giản hoá việc tích hợp khả năng OCR vào các dự án PHP. Thư viện cho phép bạn chỉ định các cấu hình Tesseract tùy chỉnh, chẳng hạn như ngôn ngữ, chế độ phân đoạn trang và các tham số tiền xử lý hình ảnh, mang lại sự linh hoạt để tùy chỉnh kết quả OCR.