Perpustakaan PHP Sumber Terbuka untuk operasi OCR pada Imej
API Pengecaman Aksara Optik PHP percuma untuk melaksanakan operasi OCR pada Imej, Dokumen Diimbas dan PDF menggunakan perpustakaan PHP Tesseract.
Antara pelbagai alatan OCR yang tersedia, Tesseract OCR menonjol sebagai salah satu API yang paling berkuasa dan serba boleh yang membolehkan pembangun perisian mencipta aplikasi untuk mengecam dan mengekstrak teks daripada pelbagai sumber visual yang popular. Tesseract OCR untuk PHP ialah pembungkus yang sangat berguna untuk berfungsi dengan Tesseract OCR dalam aplikasi PHP. Sumber terbuka Tesseract OCR untuk perpustakaan PHP boleh meningkatkan ketepatan OCR dengan pramemproses imej. Teknik seperti mengubah saiz, penduaan, penyingkiran hingar dan deskewing boleh digunakan untuk meningkatkan keterlihatan teks dan mengalih keluar sebarang artifak yang boleh menghalang pengecaman.
Tesseract OCR untuk perpustakaan PHP menawarkan beberapa ciri lanjutan dan pilihan penyesuaian untuk meningkatkan hasil OCR di dalam aplikasi PHP seperti mengendalikan dokumen berbilang bahasa, menyatakan bahasa yang dikehendaki semasa permulaan OCR untuk meningkatkan ketepatan untuk bahasa tertentu, sokongan mod pembahagian halaman, meningkatkan ketepatan pengecaman untuk aplikasi khusus, sokongan latihan pada fon atau simbol tersuai, atau corak teks tertentu, meningkatkan kebolehcapaian, pendigitalan dokumen, analisis teks, pengekstrakan data dan banyak lagi.
Gunakan pembungkus Tesseract PHP untuk menghantar imej praproses kepada enjin Tesseract OCR. Pembalut menyediakan fungsi untuk melaksanakan OCR dan mendapatkan semula teks yang diiktiraf sebagai hasilnya. Teks yang diekstrak mungkin memerlukan langkah pasca pemprosesan tambahan seperti semakan ejaan, pemformatan atau pengubahsuaian khusus bahasa. Pustaka PHP seperti Symfony/string atau Text_LanguageDetect boleh digunakan untuk tujuan ini. Dengan menyepadukan Tesseract OCR ke dalam projek PHP anda, pembangun perisian boleh memperkemas pemprosesan dokumen, mengautomasikan pengekstrakan data dan membuka kunci tahap kecekapan dan kebolehcapaian baharu ke dalam aplikasi mereka.
Bermula dengan Tesseract OCR untuk PHP
Cara yang disyorkan untuk memasang Tesseract OCR untuk PHP adalah menggunakan Komposer. Sila gunakan arahan berikut untuk pemasangan yang lancar.
Pasang Tesseract OCR untuk PHP melalui Komposer
$ composer require thiagoalessio/tesseract_ocr
Pasang Tesseract OCR untuk PHP melalui Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Anda boleh memuat turun pustaka kongsi yang disusun daripada repositori Github.
Ekstrak Teks daripada Imej di dalam Apl PHP
Sumber terbuka Tesseract OCR untuk perpustakaan PHP telah menyediakan beberapa ciri berguna untuk mengekstrak teks daripada imej menggunakan arahan PHP. Perpustakaan menawarkan mod pembahagian halaman yang berbeza untuk mengendalikan pelbagai susun atur dan susunan teks. Mulakan proses pengekstrakan dengan memuatkan imej atau dokumen yang mengandungi teks yang ingin anda ekstrak. Gunakan pembalut Tesseract PHP untuk menghantar imej praproses kepada enjin Tesseract OCR. Pembalut menyediakan fungsi untuk melaksanakan OCR dan mendapatkan semula teks yang diiktiraf sebagai hasilnya. Contoh berikut menunjukkan proses asas memuatkan imej dan mengekstrak teks daripadanya menggunakan arahan PHP.
Bagaimana untuk Memuatkan Imej & Ekstrak Teks menggunakan Kod PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Mengendalikan Output OCR di dalam Apl PHP
Sumber terbuka Tesseract OCR untuk perpustakaan PHP telah menyertakan ciri yang sangat berguna untuk menyimpan dan bekerja dengan teks output OCR di dalam aplikasi PHP. Ia membolehkan menyimpan teks keluar dalam beberapa format popular seperti PDF, TXT, HTML, Word dan banyak lagi. Ia membolehkan untuk mengendalikan teks yang diiktiraf yang diekstrak daripada imej. Bergantung pada keperluan permohonan anda, anda mungkin perlu memproses atau menganalisis teks yang diekstrak selanjutnya. Tugas biasa termasuk pengesahan data, pembersihan teks, semakan ejaan, pemformatan, penyepaduan dengan sistem lain untuk pemprosesan lanjutan atau pengubahsuaian khusus bahasa. Pembangun perisian boleh menganalisis dengan mudah volum besar data teks yang diekstrak daripada dokumen, suapan media sosial atau maklum balas pelanggan untuk memperoleh cerapan, analisis sentimen atau pemodelan topik.
Dapatkan Data Imej, Saiz & Simpan Ia dalam Format PDF melalui API PHP
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();