Perpustakaan PHP untuk Mengekstrak Teks Gambar dalam Berbagai Bahasa
API OCR (Optical Character Recognition) PHP Open Source memungkinkan Memuat & Memindai Gambar atau Dokumen, Mengenali & Mengekstrak Teks dari Gambar dalam Berbagai Bahasa di dalam Aplikasi PHP.
Teknologi Optical Character Recognition (OCR) telah menjadi alat penting untuk mengekstrak teks dari gambar dan dokumen saat ini. Dengan meningkatnya transformasi digital, kebutuhan akan solusi OCR yang efisien dan akurat tidak pernah lebih mendesak. OcrPHP adalah perpustakaan OCR open source yang sangat kuat yang memungkinkan pengembang perangkat lunak membangun aplikasi OCR yang handal dan skalabel. Ini adalah perpustakaan OCR berbasis PHP yang menggunakan mesin Tesseract OCR, teknologi OCR yang banyak digunakan dan sangat dihormati yang dikembangkan oleh Google. Ada banyak fitur dalam perpustakaan ini, seperti pemindaian dokumen, mengekstrak teks dari gambar, ekstraksi teks dalam bahasa tertentu, mengekstrak teks dari PDF, dan banyak lagi.
Perpustakaan OcrPHP telah menyertakan teknik pra‑pemrosesan gambar lanjutan, seperti perataan (deskewing), penghilangan bintik (despeckling), dan binarisasi, untuk meningkatkan akurasi OCR. Ia mendukung melakukan OCR dalam banyak bahasa, termasuk Inggris, Spanyol, Prancis, Jerman, Italia, Portugis, Cina, Jepang, dan banyak lagi. Pengembang dapat menyesuaikan proses OCR dengan mengatur parameter seperti bahasa, mode segmentasi halaman, dan pengaturan mesin OCR. Ia juga menyertakan mekanisme penanganan error yang kuat untuk memastikan operasi OCR berjalan lancar dan efisien. Dengan fitur seperti dukungan multibahasa, pemindaian gambar lanjutan, konfigurasi khusus, dan integrasi yang mudah, ia memungkinkan pengembang menciptakan alat pengenalan teks yang serbaguna dengan usaha minimal dan biaya rendah.
Memulai dengan OcrPHP
Cara yang direkomendasikan untuk menginstal OcrPHP adalah menggunakan Composer. Silakan gunakan perintah berikut untuk instalasi yang lancar.
Instal OcrPHP via Composer
composer require fizzday/ocrphpInstal OcrPHP via Github
git clone https://github.com/fizzday/OcrPHP.git Anda dapat mengunduh perpustakaan berbagi yang telah dikompilasi dari repositori Github.
Mengenali dan Mengekstrak Teks dari Gambar via PHP
Perpustakaan OcrPHP open source memudahkan perangkat lunak memuat berbagai jenis gambar dan mengekstrak teks dari gambar tersebut hanya dengan beberapa baris kode PHP. Berikut contoh yang sangat sederhana, yang menggunakan perpustakaan Imagick untuk memuat file gambar dan membuat instance kelas OcrPHP. Pengembang kemudian dapat mengatur bahasa dan pengaturan mesin OCR sebelum melakukan OCR pada gambar menggunakan metode recognize(). Akhirnya, teks yang diekstrak dicetak menggunakan metode getText().
Bagaimana Mengekstrak Teks dari Gambar menggunakan Perpustakaan PHP?
require_once 'OcrPHP/autoload.php';
// Memuat file gambar
$image = new Imagick('path/to/image.jpg');
// Membuat instance kelas OcrPHP
$ocr = new OcrPHP();
// Mengatur bahasa dan pengaturan mesin OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Melakukan OCR pada gambar
$result = $ocr->recognize($image);
// Mencetak teks yang diekstrak
echo $result->getText();
Mengenali Teks dalam Bahasa Tertentu via PHP
Perpustakaan OcrPHP menyediakan dukungan untuk banyak bahasa guna melakukan operasi OCR di dalam aplikasi PHP. Baik teks Anda dalam bahasa Inggris, Cina, atau bahasa lain yang didukung, OcrPHP dapat menanganinya dengan mulus. Untuk mengekstrak teks dalam bahasa tertentu, berikan kode bahasa sebagai parameter. Pastikan model bahasa Tesseract yang bersangkutan telah terinstal. Contoh berikut menunjukkan bagaimana pengembang dapat mengekstrak teks dari gambar berbahasa Cina di dalam aplikasi PHP.
Bagaimana Mengekstrak Teks dari Gambar dalam Bahasa Cina via PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Mengekstrak teks dalam bahasa Cina
$text = $ocr->scan($imagePath, 'chi_sim'); // Gunakan 'eng' untuk Bahasa Inggris
echo "Teks yang Diekstrak (Cina): \n" . $text;
Pemrosesan Batch dan Otomatisasi OCR via PHP
Untuk pengembang perangkat lunak yang membangun aplikasi pemrosesan dokumen, pemrosesan batch dapat menjadi fitur yang berharga. OcrPHP open source memudahkan pengembang untuk melakukan iterasi pada direktori berisi file gambar dan mengekstrak teks dari masing‑masing secara otomatis. Ini sangat cocok untuk mengotomatisasi tugas seperti memindai faktur, kwitansi, atau buku. Berikut contoh yang sangat berguna yang memindai semua file .png di direktori yang ditentukan, mengekstrak teks dari masing‑masing, dan mencetaknya. Anda dapat memperluasnya untuk menyimpan output ke file atau basis data, menjadikannya alat yang kuat untuk pemrosesan dokumen.
Bagaimana Mengekstrak Teks dari Beberapa Gambar via Perpustakaan PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Teks dari {$imagePath}: \n" . $text . "\n\n";
}
Konfigurasi Kustom & Dukungan Integrasi
OcrPHP open source adalah perpustakaan yang serbaguna dan ramah pengembang yang menyederhanakan integrasi kemampuan OCR ke dalam proyek PHP. Perpustakaan ini memungkinkan Anda menentukan konfigurasi Tesseract khusus, seperti bahasa, mode segmentasi halaman, dan parameter pra‑pemrosesan gambar, memberikan fleksibilitas untuk menyesuaikan hasil OCR.