API PHP Percuma untuk Mengekstrak Teks & Metadata dari PDF dan Imej

Perpustakaan Pengenalan Aksara Optik (OCR) PHP Sumber Terbuka membolehkan Mengekstrak Teks, Metadata dan HTML dari PDF, DOCX, Imej (JPEG, PNG) & Dokumen Lain dalam Pelbagai Bahasa dalam Aplikasi PHP.

Dalam bidang pembangunan perisian, mengendalikan teks daripada pelbagai jenis fail boleh menjadi sukar tetapi merupakan tugas yang kerap. Sama ada anda sedang membina sistem untuk mengurus dokumen, alat untuk menganalisis kandungan, atau enjin carian, keupayaan mengekstrak teks daripada PDF, dokumen Word, hamparan, dan format fail lain adalah penting. Di sinilah perpustakaan PHP-Apache-Tika menjadi berharga. Apache Tika ialah satu set alat fleksibel yang direka untuk menguruskan kerja-kerja analisis kandungan. Anda boleh menggunakan Tika untuk mengekstrak metadata dan teks daripada pelbagai jenis fail seperti PDF, fail Microsoft Office, dan imej. Tika pada mulanya ditulis dalam Java. Ia biasanya dipasang sebagai pelayan tersendiri, menjadikannya boleh diakses melalui HTTP. Kaedah ini membolehkan pelbagai bahasa pengaturcaraan, seperti PHP, memanfaatkan keupayaan kuat Tika tanpa perlu membina proses penguraian yang rumit dari awal.

Perpustakaan ini menyokong pelbagai ciri seperti pengekstrakan teks dan HTML, pengekstrakan metadata, pengendalian ralat yang lebih baik, pengenalan OCR, metadata piawai untuk dokumen, sokongan sumber tempatan dan jauh, dan banyak lagi. Perpustakaan PHP-Apache-Tika menghubungkan aplikasi PHP dengan pelayan Apache Tika. Daripada membina penguraian atau penukar anda sendiri, anda boleh bergantung pada perpustakaan ini untuk menghantar dokumen ke pelayan Tika dan menerima teks bersih atau metadata yang diekstrak kembali. Ini bukan sahaja mempermudah proses pembangunan tetapi juga memastikan aplikasi anda mendapat manfaat daripada peningkatan berterusan Tika dan sokongan format yang meluas. Sama ada anda sedang membangunkan sistem pengurusan dokumen yang kompleks atau alat analisis kandungan yang ringan, perpustakaan PHP-Apache-Tika menyediakan penyelesaian yang boleh dipercayai dan fleksibel.

Secara Ringkas

Satu gambaran keseluruhan ciri-ciri PHP-Apache-Tika.

Gambaran Ciri-ciri

Lakukan OCR
Tambah Keupayaan OCR
Kenali teks dalam banyak bahasa
Tukar Imej teks
Teks Fon yang dikenali
Cari PDF
Bahasa Lain
Cipta aplikasi OCR
Simpan ke pelayar
Ekstrak Teks
Sokongan Multi-threading

PHP-Apache-Tika

PHP-Apache-Tika menyokong format fail pemampatan popular yang disenaraikan di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Kebebasan Platform

PHP-Apache-Tika hanya memerlukan Runtime PHP.

PHP 5.1 ke atas.

PHP-Apache-Tika

Memulakan dengan PHP-Apache-Tika

Cara yang disyorkan untuk memasang PHP-Apache-Tika ialah menggunakan Composer. Sila gunakan perintah berikut untuk pemasangan yang lancar.

Pasang PHP-Apache-Tika melalui Composer

composer require vaites/php-apache-tika

Pasang PHP-Apache-Tika melalui Github

git clone https://github.com/fizzday/OcrPHP.git

Anda boleh memuat turun perpustakaan bersama yang telah dikompilasi daripada repositori Github.

Pengekstrakan Teks dan HTML melalui PHP

Salah satu ciri utama perpustakaan PHP-Apache-Tika ialah keupayaannya mengekstrak teks daripada pelbagai format dokumen. Ini boleh menjadi sangat berguna apabila melaksanakan fungsi carian atau alat analisis kandungan. Perpustakaan ini menyokong pengekstrakan teks biasa daripada dokumen, memudahkan proses pengindeksan, pencarian, atau analisis kandungan. Berikut ialah contoh kod yang menunjukkan bagaimana TikaClient menghantar dokumen ke pelayan Tika dan mendapatkan kandungan teks biasa, menjadikannya sedia untuk diproses atau diindeks selanjutnya.

Bagaimana Mengekstrak Teks daripada Dokumen dalam Aplikasi PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Pengekstrakan Metadata melalui Perpustakaan PHP

Selain teks, dokumen sering mengandungi metadata berharga seperti maklumat pengarang, tarikh penciptaan, dan jenis fail. Perpustakaan PHP-Apache-Tika boleh mengekstrak metadata ini, membolehkan anda membina aplikasi yang lebih kaya. Contoh ini menunjukkan cara mendapatkan metadata daripada dokumen. Array yang dihasilkan boleh mengandungi pelbagai butiran bergantung pada jenis fail dan kandungannya.

Bagaimana Mengekstrak Metadata menggunakan Perpustakaan PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Mengendalikan Pelbagai Format Fail

Kuasa Apache Tika terletak pada sokongannya untuk pelbagai format fail. Sama ada anda berurusan dengan PDF, DOC, imej, atau malah jenis fail yang kurang biasa, perpustakaan ini membantu memastikan anda dapat mengekstrak data yang diperlukan tanpa perlu risau tentang keanehan format tertentu. Bayangkan anda sedang membangunkan sistem pengurusan dokumen di mana pengguna boleh memuat naik pelbagai jenis fail. Anda boleh menggunakan perpustakaan ini untuk menentukan kedua-dua kandungan dan metadata bagi setiap fail: