1. Produk
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Perpustakaan PHP Sumber Terbuka untuk operasi OCR pada Gambar

API Pengenalan Karakter Optik PHP gratis untuk melakukan operasi OCR pada Gambar, Dokumen yang Dipindai, dan PDF menggunakan pustaka Tesseract PHP.

Di antara banyak alat OCR yang tersedia, Tesseract OCR menonjol sebagai salah satu API paling kuat dan serbaguna yang memungkinkan pengembang perangkat lunak membuat aplikasi untuk mengenali dan mengekstrak teks dari berbagai sumber visual populer. Tesseract OCR untuk PHP adalah pembungkus yang sangat berguna untuk bekerja dengan Tesseract OCR di dalam aplikasi PHP. Pustaka Tesseract OCR untuk PHP open source dapat meningkatkan akurasi OCR dengan melakukan pra-pemrosesan gambar. Teknik seperti pengubahan ukuran, binarisasi, penghilangan noise, dan deskewing dapat diterapkan untuk meningkatkan visibilitas teks dan menghilangkan artefak apa pun yang dapat menghalangi pengenalan.

Pustaka Tesseract OCR untuk PHP menawarkan beberapa fitur lanjutan dan opsi penyesuaian untuk meningkatkan hasil OCR dalam aplikasi PHP seperti menangani dokumen multibahasa, menentukan bahasa yang diinginkan selama inisialisasi OCR untuk meningkatkan akurasi untuk bahasa tertentu, dukungan mode segmentasi halaman, meningkatkan akurasi pengenalan untuk aplikasi khusus, melatih dukungan tentang font atau simbol khusus, atau pola teks tertentu, meningkatkan aksesibilitas, digitalisasi dokumen, analisis teks, ekstraksi data, dan banyak lagi.

Gunakan wrapper Tesseract PHP untuk meneruskan gambar yang telah diproses sebelumnya ke mesin Tesseract OCR. Wrapper menyediakan fungsi untuk menjalankan OCR dan mengambil teks yang dikenali sebagai hasilnya. Teks yang diekstraksi mungkin memerlukan langkah pasca-pemrosesan tambahan seperti pemeriksaan ejaan, pemformatan, atau modifikasi khusus bahasa. Pustaka PHP seperti Symfony/string atau Text_LanguageDetect dapat digunakan untuk tujuan ini. Dengan mengintegrasikan Tesseract OCR ke dalam proyek PHP Anda, pengembang perangkat lunak dapat menyederhanakan pemrosesan dokumen, mengotomatiskan ekstraksi data, dan membuka tingkat efisiensi dan aksesibilitas baru ke dalam aplikasi mereka.

Previous Next

Memulai Tesseract OCR untuk PHP

Cara yang direkomendasikan untuk menginstal Tesseract OCR untuk PHP adalah menggunakan Komposer. Silakan gunakan perintah berikut untuk kelancaran instalasi.

Instal Tesseract OCR untuk PHP melalui Komposer

$ composer require thiagoalessio/tesseract_ocr 

Instal Tesseract OCR untuk PHP melalui Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Anda dapat mengunduh pustaka bersama yang telah dikompilasi dari repositori Github.

Ekstrak Teks dari Gambar di dalam Aplikasi PHP

Pustaka Tesseract OCR untuk PHP sumber terbuka telah menyediakan beberapa fitur berguna untuk mengekstrak teks dari gambar menggunakan perintah PHP. Perpustakaan menawarkan mode segmentasi halaman yang berbeda untuk menangani berbagai tata letak dan pengaturan teks. Mulailah proses ekstraksi dengan memuat gambar atau dokumen yang berisi teks yang ingin Anda ekstrak. Manfaatkan wrapper Tesseract PHP untuk meneruskan gambar yang telah diproses sebelumnya ke mesin Tesseract OCR. Wrapper menyediakan fungsi untuk menjalankan OCR dan mengambil teks yang dikenali sebagai hasilnya. Contoh berikut menunjukkan proses dasar memuat gambar dan mengekstrak teks darinya menggunakan perintah PHP.

Bagaimana Cara Memuat Gambar & Mengekstrak Teks menggunakan Kode PHP?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Menangani Output OCR di dalam Aplikasi PHP

Pustaka Tesseract OCR untuk PHP sumber terbuka telah menyertakan fitur yang sangat berguna untuk menyimpan dan bekerja dengan teks keluaran OCR di dalam aplikasi PHP. Ini memungkinkan menyimpan teks keluar dalam beberapa format populer seperti PDF, TXT, HTML, Word dan banyak lagi. Hal ini memungkinkan untuk menangani teks dikenali yang diekstrak dari gambar. Tergantung pada kebutuhan aplikasi Anda, Anda mungkin perlu memproses atau menganalisis lebih lanjut teks yang diekstraksi. Tugas umum mencakup validasi data, pembersihan teks, pemeriksaan ejaan, pemformatan, integrasi dengan sistem lain untuk pemrosesan lanjutan atau modifikasi khusus bahasa. Pengembang perangkat lunak dapat dengan mudah menganalisis data teks dalam jumlah besar yang diambil dari dokumen, feed media sosial, atau masukan pelanggan untuk mendapatkan wawasan, analisis sentimen, atau pemodelan topik.

Ambil Data Gambar, Ukuran & Simpan dalam Format PDF melalui PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Indonesia