Perpustakaan PHP untuk Mengekstrak Teks Imej dalam Pelbagai Bahasa

API Pengenalan Aksara Optik PHP Sumber Terbuka membolehkan Memuat & Mengimbas Imej atau Dokumen, Mengenali & Mengekstrak Teks dari Imej dalam Pelbagai Bahasa dalam Aplikasi PHP.

Teknologi Pengenalan Aksara Optik (OCR) telah menjadi alat penting untuk mengekstrak teks daripada imej dan dokumen pada masa kini. Dengan peningkatan transformasi digital, keperluan untuk penyelesaian OCR yang cekap dan tepat tidak pernah lebih mendesak. OcrPHP adalah perpustakaan OCR sumber terbuka yang sangat berkuasa yang memberi kuasa kepada pembangun perisian untuk membina aplikasi OCR yang kukuh dan boleh diskala. Ia adalah perpustakaan OCR berasaskan PHP yang menggunakan enjin Tesseract OCR, teknologi OCR yang banyak digunakan dan sangat dihargai yang dibangunkan oleh Google. Terdapat pelbagai ciri dalam perpustakaan ini, seperti mengimbas dokumen, mengekstrak teks daripada imej, pengekstrakan teks dalam bahasa tertentu, mengekstrak teks daripada PDF, dan banyak lagi.

Perpustakaan OcrPHP telah memasukkan teknik pra-pemprosesan imej lanjutan, seperti meluruskan (deskewing), menghilangkan bintik (despeckling), dan binarisasi, untuk meningkatkan ketepatan OCR. Ia menyokong pelaksanaan OCR dalam pelbagai bahasa, termasuk Bahasa Inggeris, Sepanyol, Perancis, Jerman, Itali, Portugis, Cina, Jepun, dan banyak lagi. Pembangun perisian boleh menyesuaikan proses OCR dengan menukar parameter seperti bahasa, mod segmentasi halaman, dan tetapan enjin OCR. Ia juga dilengkapi dengan mekanisme pengendalian ralat yang kukuh untuk memastikan operasi OCR dijalankan dengan lancar dan cekap. Dengan ciri seperti sokongan berbilang bahasa, pengimbasan imej lanjutan, konfigurasi tersuai, dan integrasi yang mudah, ia membolehkan pembangun mencipta alat pengenalan teks yang serba boleh dengan sedikit usaha dan kos rendah.

Sekilas Pandang

Gambaran keseluruhan ciri-ciri OcrPHP.

Gambaran Ciri-ciri

Laksanakan OCR
Tambah Keupayaan OCR
Mengenali teks dalam banyak bahasa
Tukar Imej teks
Teks Fon yang dikenali
Cari PDF
Bahasa Lain
Buat aplikasi OCR
Simpan ke pelayar
Ekstrak Teks
Sokongan Multi-threading

OcrPHP

OcrPHP menyokong format fail pemampatan popular yang disenaraikan di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

OcrPHP

Kebebasan Platform

OcrPHP hanya memerlukan PHP Runtime.

PHP 5.1 ke atas.

OcrPHP

Mula Menggunakan OcrPHP

Cara yang disarankan untuk memasang OcrPHP ialah menggunakan Composer. Sila gunakan arahan berikut untuk pemasangan yang lancar.

Pasang OcrPHP melalui Composer

composer require fizzday/ocrphp

Pasang OcrPHP melalui Github

git clone https://github.com/fizzday/OcrPHP.git

Anda boleh memuat turun perpustakaan bersama yang dikompilasi dari repositori Github.

Mengenali dan Mengekstrak Teks dari Imej melalui PHP

Perpustakaan OcrPHP sumber terbuka memudahkan perisian memuat pelbagai jenis imej dan mengekstrak teks dari imej tersebut dengan hanya beberapa baris kod PHP. Berikut ialah contoh yang sangat mudah, yang menggunakan perpustakaan Imagick untuk memuat fail imej dan membuat contoh kelas OcrPHP. Pembangun kemudian boleh menetapkan bahasa dan tetapan enjin OCR sebelum melakukan OCR pada imej menggunakan kaedah recognize(). Akhirnya, ia mencetak teks yang diekstrak menggunakan kaedah getText().

Bagaimana Mengekstrak Teks dari Imej menggunakan Perpustakaan PHP?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Mengenali Teks dalam Bahasa Tertentu melalui PHP

Perpustakaan OcrPHP menyediakan sokongan untuk pelbagai bahasa bagi melaksanakan operasi OCR dalam aplikasi PHP. Sama ada teks anda dalam Bahasa Inggeris, Cina, atau mana-mana bahasa yang disokong, OcrPHP dapat mengendalikannya dengan lancar. Untuk mengekstrak teks dalam bahasa tertentu, berikan kod bahasa sebagai parameter. Pastikan model bahasa Tesseract yang bersesuaian telah dipasang. Contoh berikut menunjukkan bagaimana pembangun dapat mengekstrak dari imej dalam bahasa Cina dalam aplikasi PHP.

Bagaimana Mengekstrak Teks dari Imej dalam Bahasa Cina melalui PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Pemprosesan Pukal dan Automasi OCR melalui PHP

Bagi pembangun perisian yang membina aplikasi pemprosesan dokumen, pemprosesan pukal boleh menjadi ciri yang berharga. OcrPHP sumber terbuka memudahkan pembangun untuk melintasi direktori fail imej dan mengekstrak teks dari setiap satu secara automatik. Ini sangat sesuai untuk mengautomasi tugas seperti mengimbas invois, resit, atau buku. Berikut ialah contoh yang sangat berguna yang mengimbas semua fail .png dalam direktori yang ditetapkan, mengekstrak teks dari setiap satu, dan mencetaknya. Anda boleh mengembangkan ini untuk menyimpan output ke fail atau pangkalan data, menjadikannya alat yang kuat untuk pemprosesan dokumen.

Bagaimana Mengekstrak Teks dari Berbilang Imej melalui Perpustakaan PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Sokongan Konfigurasi Tersuai & Integrasi

OcrPHP sumber terbuka adalah perpustakaan yang serbaguna dan mesra pembangun yang mempermudah integrasi keupayaan OCR ke dalam projek PHP. Perpustakaan ini membolehkan anda menentukan konfigurasi Tesseract tersuai, seperti bahasa, mod segmentasi halaman, dan parameter pra-pemprosesan imej, menawarkan fleksibiliti untuk menyesuaikan hasil OCR.