API PHP Gratis untuk Mengekstrak Teks & Metadata dari PDF dan Gambar

Perpustakaan OCR (Optical Character Recognition) PHP Sumber Terbuka memungkinkan Mengekstrak Teks, Metadata dan HTML dari PDF, DOCX, Gambar (JPEG, PNG) & Dokumen Lain dalam Berbagai Bahasa di dalam Aplikasi PHP.

Dalam bidang pengembangan perangkat lunak, menangani teks dari berbagai jenis file dapat menjadi rumit namun merupakan tugas yang sering dilakukan. Baik Anda membuat sistem untuk mengelola dokumen, alat untuk menganalisis konten, atau mesin pencari, kemampuan mengekstrak teks dari PDF, dokumen Word, spreadsheet, dan format file lainnya sangat penting. Di sinilah perpustakaan PHP-Apache-Tika menjadi berharga. Apache Tika adalah toolkit fleksibel yang dibuat untuk mengelola pekerjaan analisis konten. Anda dapat menggunakan Tika untuk mengambil metadata dan teks dari berbagai tipe file seperti PDF, file Microsoft Office, dan gambar. Tika awalnya ditulis dalam Java. Biasanya Tika dijalankan sebagai server terpisah, sehingga dapat diakses melalui HTTP. Metode ini memungkinkan bahasa pemrograman berbeda, seperti PHP, memanfaatkan kemampuan kuat Tika tanpa harus membuat proses parsing yang rumit dari awal.

Perpustakaan ini mendukung banyak fitur seperti ekstraksi teks dan HTML, ekstraksi metadata, penanganan error yang lebih baik, pengenalan OCR, metadata standar untuk dokumen, dukungan sumber daya lokal dan remote, serta banyak lagi. Perpustakaan PHP-Apache-Tika menjembatani aplikasi PHP dengan server Apache Tika. Daripada membangun parser atau konverter sendiri, Anda dapat mengandalkan perpustakaan ini untuk mengirim dokumen ke server Tika dan menerima teks bersih atau metadata yang diekstrak kembali. Ini tidak hanya menyederhanakan proses pengembangan tetapi juga memastikan aplikasi Anda mendapat manfaat dari peningkatan berkelanjutan Tika dan dukungan format yang luas. Baik Anda mengembangkan sistem manajemen dokumen yang kompleks atau alat analisis konten yang ringan, perpustakaan PHP-Apache-Tika menyediakan solusi yang andal dan fleksibel.

Sekilas

Gambaran umum fitur PHP-Apache-Tika.

Gambaran Fitur

Melakukan OCR
Menambahkan Kemampuan OCR
Mengenali teks dalam banyak bahasa
Mengonversi Gambar teks
Mengenali teks Font
Mencari PDF
Bahasa Lain
Membuat aplikasi OCR
Menyimpan ke browser
Mengekstrak Teks
Dukungan Multi-threading

PHP-Apache-Tika

PHP-Apache-Tika mendukung format file kompresi populer yang tercantum di bawah ini.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Kemandirian Platform

PHP-Apache-Tika hanya memerlukan Runtime PHP.

PHP 5.1 ke atas.

PHP-Apache-Tika

Memulai dengan PHP-Apache-Tika

Cara yang direkomendasikan untuk menginstal PHP-Apache-Tika adalah menggunakan Composer. Silakan gunakan perintah berikut untuk instalasi yang lancar.

Instal PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Instal PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

Anda dapat mengunduh pustaka bersama yang telah dikompilasi dari repositori Github.

Ekstraksi Teks dan HTML via PHP

Salah satu fitur utama perpustakaan PHP-Apache-Tika adalah kemampuannya mengekstrak teks dari berbagai format dokumen. Ini sangat berguna ketika mengimplementasikan fungsi pencarian atau alat analisis konten. Perpustakaan ini mendukung ekstraksi teks polos dari dokumen, memudahkan pengindeksan, pencarian, atau analisis konten. Berikut contoh potongan kode yang menunjukkan bagaimana TikaClient mengirim dokumen ke server Tika dan mengambil konten teks polos, sehingga siap untuk diproses lebih lanjut atau diindeks.

Bagaimana Mengekstrak Teks dari Dokumen dalam Aplikasi PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Ekstraksi Metadata via Perpustakaan PHP

Selain teks, dokumen sering berisi metadata berharga seperti informasi penulis, tanggal pembuatan, dan tipe file. Perpustakaan PHP-Apache-Tika dapat mengekstrak metadata ini, memungkinkan Anda membangun aplikasi yang lebih kaya. Contoh berikut menunjukkan cara mengambil metadata dari sebuah dokumen. Array yang dihasilkan dapat berisi berbagai detail tergantung pada tipe file dan isinya.

Bagaimana Mengekstrak Metadata menggunakan Perpustakaan PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Menangani Berbagai Format File

Kekuatan Apache Tika terletak pada dukungannya terhadap banyak format file. Baik Anda berurusan dengan PDF, DOC, gambar, atau bahkan tipe file yang kurang umum, perpustakaan ini membantu memastikan Anda dapat mengekstrak data yang diperlukan tanpa harus khawatir tentang keanehan format tertentu. Bayangkan Anda mengembangkan sistem manajemen dokumen di mana pengguna dapat mengunggah berbagai tipe file. Anda dapat menggunakan perpustakaan ini untuk menentukan baik konten maupun metadata untuk setiap file: