Thư viện PHP nguồn mở cho các hoạt động OCR trên hình ảnh
API nhận dạng ký tự quang học PHP miễn phí để thực hiện các hoạt động OCR trên hình ảnh, tài liệu được quét và PDF bằng thư viện Tesseract PHP.
Trong số nhiều công cụ OCR có sẵn, Tesseract OCR nổi bật là một trong những API mạnh mẽ và linh hoạt nhất cho phép các nhà phát triển phần mềm tạo ra các ứng dụng để nhận dạng và trích xuất văn bản từ nhiều nguồn hình ảnh phổ biến. Tesseract OCR cho PHP là một trình bao bọc rất hữu ích để làm việc với Tesseract OCR bên trong các ứng dụng PHP. Thư viện Tesseract OCR cho PHP nguồn mở có thể nâng cao độ chính xác của OCR bằng cách xử lý trước hình ảnh. Các kỹ thuật như thay đổi kích thước, nhị phân hóa, loại bỏ nhiễu và làm lệch hướng có thể được áp dụng để tăng cường khả năng hiển thị của văn bản và loại bỏ mọi hiện vật có thể cản trở việc nhận dạng.
Thư viện Tesseract OCR cho PHP cung cấp một số tính năng nâng cao và tùy chọn tùy chỉnh để nâng cao kết quả OCR bên trong các ứng dụng PHP như xử lý tài liệu đa ngôn ngữ, chỉ định ngôn ngữ mong muốn trong quá trình khởi tạo OCR để cải thiện độ chính xác cho các ngôn ngữ cụ thể, hỗ trợ chế độ phân đoạn trang, cải thiện độ chính xác nhận dạng cho các ứng dụng chuyên biệt, hỗ trợ đào tạo về phông chữ hoặc ký hiệu tùy chỉnh hoặc các mẫu văn bản cụ thể, tăng cường khả năng truy cập, số hóa tài liệu, phân tích văn bản, trích xuất dữ liệu và nhiều tính năng khác.
Sử dụng trình bao bọc Tesseract PHP để chuyển hình ảnh đã xử lý trước đến công cụ Tesseract OCR. Trình bao bọc cung cấp các hàm để thực thi OCR và truy xuất văn bản đã nhận dạng như kết quả. Văn bản đã trích xuất có thể yêu cầu các bước xử lý hậu kỳ bổ sung như kiểm tra chính tả, định dạng hoặc sửa đổi ngôn ngữ cụ thể. Các thư viện PHP như Symfony/string hoặc Text_LanguageDetect có thể được sử dụng cho các mục đích này. Bằng cách tích hợp Tesseract OCR vào các dự án PHP của bạn, các nhà phát triển phần mềm có thể hợp lý hóa quá trình xử lý tài liệu, tự động trích xuất dữ liệu và mở ra một cấp độ hiệu quả và khả năng truy cập mới vào các ứng dụng của họ.
Bắt đầu với Tesseract OCR cho PHP
Cách được khuyến nghị để cài đặt Tesseract OCR cho PHP là sử dụng Composer. Vui lòng sử dụng lệnh sau để cài đặt trơn tru.
Cài đặt Tesseract OCR cho PHP thông qua Composer
$ composer require thiagoalessio/tesseract_ocr
Cài đặt Tesseract OCR cho PHP qua Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Bạn có thể tải xuống thư viện chia sẻ đã biên dịch từ kho lưu trữ Github.
Trích xuất văn bản từ hình ảnh bên trong ứng dụng PHP
Thư viện Tesseract OCR mã nguồn mở cho PHP đã cung cấp một số tính năng hữu ích để trích xuất văn bản từ hình ảnh bằng lệnh PHP. Thư viện cung cấp các chế độ phân đoạn trang khác nhau để xử lý nhiều bố cục và sắp xếp văn bản khác nhau. Bắt đầu quá trình trích xuất bằng cách tải hình ảnh hoặc tài liệu có chứa văn bản bạn muốn trích xuất. Sử dụng trình bao bọc Tesseract PHP để chuyển hình ảnh đã xử lý trước đến công cụ Tesseract OCR. Trình bao bọc cung cấp các hàm để thực thi OCR và lấy văn bản đã nhận dạng làm kết quả. Ví dụ sau đây cho thấy quy trình cơ bản để tải hình ảnh và trích xuất văn bản từ hình ảnh đó bằng lệnh PHP.
Làm thế nào để tải hình ảnh và trích xuất văn bản bằng mã PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Xử lý đầu ra OCR bên trong ứng dụng PHP
Thư viện Tesseract OCR mã nguồn mở cho PHP đã bao gồm các tính năng rất hữu ích để lưu và làm việc với văn bản đầu ra của OCR bên trong các ứng dụng PHP. Nó cho phép lưu văn bản đầu ra ở một số định dạng phổ biến như PDF, TXT, HTML, Word và nhiều định dạng khác. Nó cho phép xử lý văn bản được nhận dạng trích xuất từ hình ảnh. Tùy thuộc vào yêu cầu của ứng dụng, bạn có thể cần xử lý hoặc phân tích thêm văn bản đã trích xuất. Các tác vụ phổ biến bao gồm xác thực dữ liệu, dọn dẹp văn bản, kiểm tra chính tả, định dạng, tích hợp với các hệ thống khác để xử lý nâng cao hoặc sửa đổi ngôn ngữ cụ thể. Các nhà phát triển phần mềm có thể dễ dàng phân tích khối lượng lớn dữ liệu văn bản được trích xuất từ tài liệu, nguồn cấp dữ liệu phương tiện truyền thông xã hội hoặc phản hồi của khách hàng để đưa ra thông tin chi tiết, phân tích tình cảm hoặc mô hình hóa chủ đề.
Lấy dữ liệu hình ảnh, thay đổi kích thước và lưu dưới dạng PDF thông qua PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();