API PHP miễn phí để Trích xuất Văn bản & Siêu dữ liệu từ PDF và Hình ảnh
Thư viện Nhận dạng Ký tự Quang học (OCR) PHP mã nguồn mở cho phép Trích xuất Văn bản, Siêu dữ liệu và HTML từ PDF, DOCX, Hình ảnh (JPEG, PNG) & Các tài liệu khác bằng nhiều ngôn ngữ trong các ứng dụng PHP.
Trong lĩnh vực phát triển phần mềm, việc xử lý văn bản từ các loại tệp khác nhau có thể khá khó khăn nhưng lại là một nhiệm vụ thường xuyên. Dù bạn đang tạo một hệ thống quản lý tài liệu, một công cụ phân tích nội dung, hay một công cụ tìm kiếm, khả năng trích xuất văn bản từ PDF, tài liệu Word, bảng tính và các định dạng tệp khác là vô cùng quan trọng. Đó là lúc thư viện PHP-Apache-Tika trở nên hữu ích. Apache Tika là một bộ công cụ linh hoạt được thiết kế để thực hiện các công việc phân tích nội dung. Bạn có thể dùng Tika để lấy siêu dữ liệu và văn bản từ nhiều loại tệp như PDF, các tệp Microsoft Office và hình ảnh. Tika ban đầu được viết bằng Java và thường được triển khai dưới dạng một máy chủ riêng, cho phép truy cập qua HTTP. Cách tiếp cận này cho phép các ngôn ngữ lập trình khác nhau, chẳng hạn như PHP, tận dụng các khả năng mạnh mẽ của Tika mà không cần phải tự xây dựng các quy trình phân tích phức tạp từ đầu.
Thư viện hỗ trợ rất nhiều tính năng như trích xuất văn bản và HTML, trích xuất siêu dữ liệu, cải thiện xử lý lỗi, nhận dạng OCR, chuẩn hoá siêu dữ liệu cho tài liệu, hỗ trợ tài nguyên cục bộ và từ xa, và nhiều hơn nữa. Thư viện PHP-Apache-Tika kết nối các ứng dụng PHP với máy chủ Apache Tika. Thay vì tự xây dựng các bộ phân tích hoặc chuyển đổi, bạn có thể dùng thư viện này để gửi tài liệu tới máy chủ Tika và nhận lại văn bản hoặc siêu dữ liệu đã được trích xuất sạch sẽ. Điều này không chỉ đơn giản hoá quá trình phát triển mà còn đảm bảo ứng dụng của bạn luôn được hưởng lợi từ các cải tiến liên tục và hỗ trợ đa dạng định dạng của Tika. Dù bạn đang phát triển một hệ thống quản lý tài liệu phức tạp hay một công cụ phân tích nội dung nhẹ, thư viện PHP-Apache-Tika cung cấp một giải pháp đáng tin cậy và linh hoạt.
Bắt đầu với PHP-Apache-Tika
Cách khuyến nghị để cài đặt PHP-Apache-Tika là sử dụng Composer. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ.
Cài đặt PHP-Apache-Tika qua Composer
composer require vaites/php-apache-tikaCài đặt PHP-Apache-Tika qua Github
git clone https://github.com/fizzday/OcrPHP.git Bạn có thể tải thư viện chia sẻ đã biên dịch từ Github kho lưu trữ.
Trích xuất Văn bản và HTML bằng PHP
Một trong những tính năng chính của thư viện PHP-Apache-Tika là khả năng trích xuất văn bản từ các định dạng tài liệu khác nhau. Điều này đặc biệt hữu ích khi triển khai các chức năng tìm kiếm hoặc công cụ phân tích nội dung. Thư viện hỗ trợ trích xuất văn bản thuần từ tài liệu, giúp việc lập chỉ mục, tìm kiếm hoặc phân tích nội dung trở nên dễ dàng hơn. Dưới đây là một đoạn mã minh họa cách TikaClient gửi tài liệu tới máy chủ Tika và nhận lại nội dung văn bản thuần, sẵn sàng cho các bước xử lý hoặc lập chỉ mục tiếp theo.
Cách trích xuất Văn bản từ tài liệu trong ứng dụng PHP?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Khởi tạo client Tika với URL máy chủ Tika
$client = new TikaClient('http://localhost:9998');
// Xác định đường dẫn tới tài liệu (ví dụ: PDF, DOCX, v.v.)
$filePath = '/path/to/your/document.pdf';
try {
// Trích xuất nội dung văn bản từ tài liệu
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
Trích xuất Siêu dữ liệu bằng Thư viện PHP
Không chỉ dừng lại ở văn bản, các tài liệu thường chứa các siêu dữ liệu quý giá như thông tin tác giả, ngày tạo và loại tệp. Thư viện PHP-Apache-Tika có thể trích xuất các siêu dữ liệu này, cho phép bạn xây dựng các ứng dụng phong phú hơn. Ví dụ dưới đây minh họa cách lấy siêu dữ liệu từ một tài liệu. Mảng kết quả có thể bao gồm nhiều chi tiết tùy thuộc vào loại tệp và nội dung của nó.
Cách trích xuất Siêu dữ liệu bằng Thư viện PHP?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Khởi tạo client Tika
$client = new TikaClient('http://localhost:9998');
// Xác định đường dẫn tới tài liệu
$filePath = '/path/to/your/document.pdf';
try {
// Trích xuất siêu dữ liệu từ tài liệu
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Xử lý Nhiều Định dạng Tệp
Sức mạnh của Apache Tika nằm ở khả năng hỗ trợ nhiều định dạng tệp. Dù bạn đang làm việc với PDF, DOC, hình ảnh, hoặc thậm chí là các loại tệp ít phổ biến, thư viện này giúp bạn trích xuất dữ liệu cần thiết mà không phải lo lắng về các chi tiết đặc thù của từng định dạng. Hãy tưởng tượng bạn đang phát triển một hệ thống quản lý tài liệu, nơi người dùng có thể tải lên các loại tệp khác nhau. Bạn có thể dùng thư viện để xác định cả nội dung và siêu dữ liệu cho mỗi tệp: