API PHP miễn phí để Trích xuất Văn bản & Siêu dữ liệu từ PDF và Hình ảnh

Thư viện Nhận dạng Ký tự Quang học (OCR) PHP mã nguồn mở cho phép Trích xuất Văn bản, Siêu dữ liệu và HTML từ PDF, DOCX, Hình ảnh (JPEG, PNG) & Các tài liệu khác bằng nhiều ngôn ngữ trong các ứng dụng PHP.

Trong lĩnh vực phát triển phần mềm, việc xử lý văn bản từ các loại tệp khác nhau có thể khá khó khăn nhưng lại là một nhiệm vụ thường xuyên. Dù bạn đang tạo một hệ thống quản lý tài liệu, một công cụ phân tích nội dung, hay một công cụ tìm kiếm, khả năng trích xuất văn bản từ PDF, tài liệu Word, bảng tính và các định dạng tệp khác là vô cùng quan trọng. Đó là lúc thư viện PHP-Apache-Tika trở nên hữu ích. Apache Tika là một bộ công cụ linh hoạt được thiết kế để thực hiện các công việc phân tích nội dung. Bạn có thể dùng Tika để lấy siêu dữ liệu và văn bản từ nhiều loại tệp như PDF, các tệp Microsoft Office và hình ảnh. Tika ban đầu được viết bằng Java và thường được triển khai dưới dạng một máy chủ riêng, cho phép truy cập qua HTTP. Cách tiếp cận này cho phép các ngôn ngữ lập trình khác nhau, chẳng hạn như PHP, tận dụng các khả năng mạnh mẽ của Tika mà không cần phải tự xây dựng các quy trình phân tích phức tạp từ đầu.

Thư viện hỗ trợ rất nhiều tính năng như trích xuất văn bản và HTML, trích xuất siêu dữ liệu, cải thiện xử lý lỗi, nhận dạng OCR, chuẩn hoá siêu dữ liệu cho tài liệu, hỗ trợ tài nguyên cục bộ và từ xa, và nhiều hơn nữa. Thư viện PHP-Apache-Tika kết nối các ứng dụng PHP với máy chủ Apache Tika. Thay vì tự xây dựng các bộ phân tích hoặc chuyển đổi, bạn có thể dùng thư viện này để gửi tài liệu tới máy chủ Tika và nhận lại văn bản hoặc siêu dữ liệu đã được trích xuất sạch sẽ. Điều này không chỉ đơn giản hoá quá trình phát triển mà còn đảm bảo ứng dụng của bạn luôn được hưởng lợi từ các cải tiến liên tục và hỗ trợ đa dạng định dạng của Tika. Dù bạn đang phát triển một hệ thống quản lý tài liệu phức tạp hay một công cụ phân tích nội dung nhẹ, thư viện PHP-Apache-Tika cung cấp một giải pháp đáng tin cậy và linh hoạt.

Tổng quan nhanh

Một cái nhìn tổng quan về các tính năng của PHP-Apache-Tika.

Tổng quan tính năng

Thực hiện OCR
Thêm khả năng OCR
Nhận dạng văn bản trong nhiều ngôn ngữ
Chuyển đổi hình ảnh chứa văn bản
Nhận dạng văn bản phông chữ
Tìm kiếm PDF
Ngôn ngữ khác
Tạo ứng dụng OCR
Lưu vào trình duyệt
Trích xuất Văn bản
Hỗ trợ đa luồng

PHP-Apache-Tika

PHP-Apache-Tika hỗ trợ các định dạng tệp nén phổ biến được liệt kê dưới đây.

Trình đọc

PNG, JPEG, BMP, TIFF, TGA, DICOM

Trình ghi

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Độc lập nền tảng

PHP-Apache-Tika chỉ yêu cầu môi trường chạy PHP.

PHP 5.1 trở lên.

PHP-Apache-Tika

Bắt đầu với PHP-Apache-Tika

Cách khuyến nghị để cài đặt PHP-Apache-Tika là sử dụng Composer. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ.

Cài đặt PHP-Apache-Tika qua Composer

composer require vaites/php-apache-tika

Cài đặt PHP-Apache-Tika qua Github

git clone https://github.com/fizzday/OcrPHP.git

Bạn có thể tải thư viện chia sẻ đã biên dịch từ Github kho lưu trữ.

Trích xuất Văn bản và HTML bằng PHP

Một trong những tính năng chính của thư viện PHP-Apache-Tika là khả năng trích xuất văn bản từ các định dạng tài liệu khác nhau. Điều này đặc biệt hữu ích khi triển khai các chức năng tìm kiếm hoặc công cụ phân tích nội dung. Thư viện hỗ trợ trích xuất văn bản thuần từ tài liệu, giúp việc lập chỉ mục, tìm kiếm hoặc phân tích nội dung trở nên dễ dàng hơn. Dưới đây là một đoạn mã minh họa cách TikaClient gửi tài liệu tới máy chủ Tika và nhận lại nội dung văn bản thuần, sẵn sàng cho các bước xử lý hoặc lập chỉ mục tiếp theo.

Cách trích xuất Văn bản từ tài liệu trong ứng dụng PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Khởi tạo client Tika với URL máy chủ Tika
$client = new TikaClient('http://localhost:9998');

// Xác định đường dẫn tới tài liệu (ví dụ: PDF, DOCX, v.v.)
$filePath = '/path/to/your/document.pdf';

try {
    // Trích xuất nội dung văn bản từ tài liệu
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Trích xuất Siêu dữ liệu bằng Thư viện PHP

Không chỉ dừng lại ở văn bản, các tài liệu thường chứa các siêu dữ liệu quý giá như thông tin tác giả, ngày tạo và loại tệp. Thư viện PHP-Apache-Tika có thể trích xuất các siêu dữ liệu này, cho phép bạn xây dựng các ứng dụng phong phú hơn. Ví dụ dưới đây minh họa cách lấy siêu dữ liệu từ một tài liệu. Mảng kết quả có thể bao gồm nhiều chi tiết tùy thuộc vào loại tệp và nội dung của nó.

Cách trích xuất Siêu dữ liệu bằng Thư viện PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Khởi tạo client Tika
$client = new TikaClient('http://localhost:9998');

// Xác định đường dẫn tới tài liệu
$filePath = '/path/to/your/document.pdf';

try {
    // Trích xuất siêu dữ liệu từ tài liệu
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Xử lý Nhiều Định dạng Tệp

Sức mạnh của Apache Tika nằm ở khả năng hỗ trợ nhiều định dạng tệp. Dù bạn đang làm việc với PDF, DOC, hình ảnh, hoặc thậm chí là các loại tệp ít phổ biến, thư viện này giúp bạn trích xuất dữ liệu cần thiết mà không phải lo lắng về các chi tiết đặc thù của từng định dạng. Hãy tưởng tượng bạn đang phát triển một hệ thống quản lý tài liệu, nơi người dùng có thể tải lên các loại tệp khác nhau. Bạn có thể dùng thư viện để xác định cả nội dung và siêu dữ liệu cho mỗi tệp: