مكتبة PHP لاستخراج نص الصورة بعدة لغات
واجهة برمجة تطبيقات التعرف الضوئي على الأحرف (OCR) مفتوحة المصدر للـ PHP تتيح تحميل ومسح الصور أو المستندات، التعرف واستخراج النص من الصور بعدة لغات داخل تطبيقات PHP.
تقنية التعرف الضوئي على الأحرف (OCR) أصبحت أداة أساسية لاستخراج النص من الصور والمستندات في الوقت الحالي. مع تزايد التحول الرقمي، أصبحت الحاجة إلى حلول OCR فعّالة ودقيقة أكثر إلحاحًا من أي وقت مضى. OcrPHP هي مكتبة OCR مفتوحة المصدر قوية تمكّن مطوري البرمجيات من بناء تطبيقات OCR قوية وقابلة للتوسع. إنها مكتبة OCR مبنية على PHP وتستفيد من محرك Tesseract OCR، وهو تقنية OCR واسعة الاستخدام وذات سمعة عالية تم تطويرها من قبل Google. تحتوي المكتبة على العديد من الميزات مثل مسح المستندات، استخراج النص من الصور، استخراج النص بلغة محددة، استخراج النص من ملفات PDF، والعديد غير ذلك.
تتضمن مكتبة OcrPHP تقنيات متقدمة لمعالجة الصور قبل التحليل، مثل تصحيح الميل، إزالة الضوضاء، والتحويل إلى ثنائي، لتحسين دقة OCR. تدعم تنفيذ OCR بعدة لغات، بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الصينية، اليابانية، والعديد غيرها. يمكن لمطوري البرمجيات تخصيص عملية OCR عن طريق ضبط معلمات مثل اللغة، وضع تقسيم الصفحة، وإعدادات محرك OCR. كما تضم آليات قوية لمعالجة الأخطاء لضمان تنفيذ عمليات OCR بسلاسة وكفاءة. بفضل ميزات مثل دعم متعدد اللغات، مسح الصور المتقدم، التكوينات المخصصة، والتكامل السهل، تمكّن المكتبة المطورين من إنشاء أدوات التعرف على النص بجهد قليل وتكلفة منخفضة.
البدء مع OcrPHP
الطريقة الموصى بها لتثبيت OcrPHP هي باستخدام Composer. يرجى استخدام الأمر التالي لتثبيت سلس.
تثبيت OcrPHP عبر Composer
composer require fizzday/ocrphpتثبيت OcrPHP عبر Github
git clone https://github.com/fizzday/OcrPHP.git يمكنك تنزيل المكتبة المشتركة المجمعة من Github المستودع.
التعرف واستخراج النص من صورة عبر PHP
مكتبة OcrPHP المفتوحة المصدر تجعل من السهل على البرمجيات تحميل أنواع مختلفة من الصور واستخراج النص منها ببضع أسطر من كود PHP. إليك مثال بسيط جدًا يستخدم مكتبة Imagick لتحميل ملف صورة وإنشاء نسخة من فئة OcrPHP. بعد ذلك يمكن للمطورين ضبط اللغة وإعدادات محرك OCR قبل تنفيذ OCR على الصورة باستخدام طريقة recognize(). أخيرًا، يتم طباعة النص المستخرج باستخدام طريقة getText().
كيف تستخرج النص من صورة باستخدام مكتبة PHP؟
require_once 'OcrPHP/autoload.php';
// Load the image file
$image = new Imagick('path/to/image.jpg');
// Create an instance of the OcrPHP class
$ocr = new OcrPHP();
// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Perform OCR on the image
$result = $ocr->recognize($image);
// Print the extracted text
echo $result->getText();
التعرف على النص بلغة محددة عبر PHP
توفر مكتبة OcrPHP دعمًا لعدة لغات لإجراء عمليات OCR داخل تطبيقات PHP. سواء كان نصك بالإنجليزية أو الصينية أو أي لغة مدعومة أخرى، يمكن لـ OcrPHP التعامل معها بسلاسة. لاستخراج النص بلغة محددة، مرّر رمز اللغة كمعامل. تأكد من تثبيت نموذج لغة Tesseract المقابل. يوضح المثال التالي كيف يمكن للمطورين استخراج النص من صور باللغة الصينية داخل تطبيقات PHP.
كيف تستخرج النص من صورة باللغة الصينية عبر PHP؟
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English
echo "Extracted Text (Chinese): \n" . $text;
المعالجة الدفعية وأتمتة OCR عبر PHP
للمطورين الذين يبنون تطبيقات معالجة المستندات، يمكن أن تكون المعالجة الدفعية ميزة قيمة. تجعل مكتبة OcrPHP المفتوحة المصدر من السهل على المطورين تكرار قراءة دليل يحتوي على ملفات صور واستخراج النص من كل صورة تلقائيًا. هذا مثالي لأتمتة مهام مثل مسح الفواتير، الإيصالات، أو الكتب. إليك مثال مفيد جدًا يقوم بمسح جميع ملفات .png في الدليل المحدد، استخراج النص من كل منها، وطباعة النتيجة. يمكنك توسيع المثال لحفظ المخرجات إلى ملف أو قاعدة بيانات، مما يجعله أداة قوية لمعالجة المستندات.
كيف تستخرج النص من عدة صور عبر مكتبة PHP؟
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
دعم التكوين المخصص والتكامل
مكتبة OcrPHP المفتوحة المصدر هي مكتبة متعددة الاستخدامات وصديقة للمطورين تُبسّط دمج قدرات OCR في مشاريع PHP. تسمح المكتبة بتحديد إعدادات مخصصة لـ Tesseract، مثل اللغة، وضع تقسيم الصفحة، ومعلمات معالجة الصور، مما يوفر مرونة لتخصيص نتائج OCR.