Perpustakaan PHP untuk Mengekstrak Teks Gambar dalam Berbagai Bahasa

API OCR (Optical Character Recognition) PHP Open Source memungkinkan Memuat & Memindai Gambar atau Dokumen, Mengenali & Mengekstrak Teks dari Gambar dalam Berbagai Bahasa di dalam Aplikasi PHP.

Teknologi Optical Character Recognition (OCR) telah menjadi alat penting untuk mengekstrak teks dari gambar dan dokumen saat ini. Dengan meningkatnya transformasi digital, kebutuhan akan solusi OCR yang efisien dan akurat tidak pernah lebih mendesak. OcrPHP adalah perpustakaan OCR open source yang sangat kuat yang memungkinkan pengembang perangkat lunak membangun aplikasi OCR yang handal dan skalabel. Ini adalah perpustakaan OCR berbasis PHP yang menggunakan mesin Tesseract OCR, teknologi OCR yang banyak digunakan dan sangat dihormati yang dikembangkan oleh Google. Ada banyak fitur dalam perpustakaan ini, seperti pemindaian dokumen, mengekstrak teks dari gambar, ekstraksi teks dalam bahasa tertentu, mengekstrak teks dari PDF, dan banyak lagi.

Perpustakaan OcrPHP telah menyertakan teknik pra‑pemrosesan gambar lanjutan, seperti perataan (deskewing), penghilangan bintik (despeckling), dan binarisasi, untuk meningkatkan akurasi OCR. Ia mendukung melakukan OCR dalam banyak bahasa, termasuk Inggris, Spanyol, Prancis, Jerman, Italia, Portugis, Cina, Jepang, dan banyak lagi. Pengembang dapat menyesuaikan proses OCR dengan mengatur parameter seperti bahasa, mode segmentasi halaman, dan pengaturan mesin OCR. Ia juga menyertakan mekanisme penanganan error yang kuat untuk memastikan operasi OCR berjalan lancar dan efisien. Dengan fitur seperti dukungan multibahasa, pemindaian gambar lanjutan, konfigurasi khusus, dan integrasi yang mudah, ia memungkinkan pengembang menciptakan alat pengenalan teks yang serbaguna dengan usaha minimal dan biaya rendah.

Sekilas

Gambaran umum fitur OcrPHP.

Ikhtisar Fitur

Melakukan OCR
Menambahkan Kapabilitas OCR
Mengenali teks dalam banyak bahasa
Mengonversi Gambar berisi teks
Mengenali teks Font
Mencari PDF
Bahasa Lain
Membuat aplikasi OCR
Menyimpan ke browser
Mengekstrak Teks
Dukungan Multi‑threading

OcrPHP

OcrPHP mendukung format file kompresi populer yang tercantum di bawah ini.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

OcrPHP

Kemandirian Platform

OcrPHP hanya memerlukan Runtime PHP.

PHP 5.1 ke atas.

OcrPHP

Memulai dengan OcrPHP

Cara yang direkomendasikan untuk menginstal OcrPHP adalah menggunakan Composer. Silakan gunakan perintah berikut untuk instalasi yang lancar.

Instal OcrPHP via Composer

composer require fizzday/ocrphp

Instal OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

Anda dapat mengunduh perpustakaan berbagi yang telah dikompilasi dari repositori Github.

Mengenali dan Mengekstrak Teks dari Gambar via PHP

Perpustakaan OcrPHP open source memudahkan perangkat lunak memuat berbagai jenis gambar dan mengekstrak teks dari gambar tersebut hanya dengan beberapa baris kode PHP. Berikut contoh yang sangat sederhana, yang menggunakan perpustakaan Imagick untuk memuat file gambar dan membuat instance kelas OcrPHP. Pengembang kemudian dapat mengatur bahasa dan pengaturan mesin OCR sebelum melakukan OCR pada gambar menggunakan metode recognize(). Akhirnya, teks yang diekstrak dicetak menggunakan metode getText().

Bagaimana Mengekstrak Teks dari Gambar menggunakan Perpustakaan PHP?

require_once 'OcrPHP/autoload.php';

// Memuat file gambar
$image = new Imagick('path/to/image.jpg');

// Membuat instance kelas OcrPHP
$ocr = new OcrPHP();

// Mengatur bahasa dan pengaturan mesin OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Melakukan OCR pada gambar
$result = $ocr->recognize($image);

// Mencetak teks yang diekstrak
echo $result->getText();

Mengenali Teks dalam Bahasa Tertentu via PHP

Perpustakaan OcrPHP menyediakan dukungan untuk banyak bahasa guna melakukan operasi OCR di dalam aplikasi PHP. Baik teks Anda dalam bahasa Inggris, Cina, atau bahasa lain yang didukung, OcrPHP dapat menanganinya dengan mulus. Untuk mengekstrak teks dalam bahasa tertentu, berikan kode bahasa sebagai parameter. Pastikan model bahasa Tesseract yang bersangkutan telah terinstal. Contoh berikut menunjukkan bagaimana pengembang dapat mengekstrak teks dari gambar berbahasa Cina di dalam aplikasi PHP.

Bagaimana Mengekstrak Teks dari Gambar dalam Bahasa Cina via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Mengekstrak teks dalam bahasa Cina
$text = $ocr->scan($imagePath, 'chi_sim'); // Gunakan 'eng' untuk Bahasa Inggris

echo "Teks yang Diekstrak (Cina): \n" . $text;

Pemrosesan Batch dan Otomatisasi OCR via PHP

Untuk pengembang perangkat lunak yang membangun aplikasi pemrosesan dokumen, pemrosesan batch dapat menjadi fitur yang berharga. OcrPHP open source memudahkan pengembang untuk melakukan iterasi pada direktori berisi file gambar dan mengekstrak teks dari masing‑masing secara otomatis. Ini sangat cocok untuk mengotomatisasi tugas seperti memindai faktur, kwitansi, atau buku. Berikut contoh yang sangat berguna yang memindai semua file .png di direktori yang ditentukan, mengekstrak teks dari masing‑masing, dan mencetaknya. Anda dapat memperluasnya untuk menyimpan output ke file atau basis data, menjadikannya alat yang kuat untuk pemrosesan dokumen.

Bagaimana Mengekstrak Teks dari Beberapa Gambar via Perpustakaan PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Teks dari {$imagePath}: \n" . $text . "\n\n";
}

Konfigurasi Kustom & Dukungan Integrasi

OcrPHP open source adalah perpustakaan yang serbaguna dan ramah pengembang yang menyederhanakan integrasi kemampuan OCR ke dalam proyek PHP. Perpustakaan ini memungkinkan Anda menentukan konfigurasi Tesseract khusus, seperti bahasa, mode segmentasi halaman, dan parameter pra‑pemrosesan gambar, memberikan fleksibilitas untuk menyesuaikan hasil OCR.