مكتبة PHP مفتوحة المصدر لعمليات التعرف الضوئي على الحروف على الصور وملفات PDF
واجهة برمجة التطبيقات المجانية للتعرف البصري على الأحرف PHP لإجراء عمليات التعرف الضوئي على الحروف على الصور والمستندات الممسوحة ضوئيًا وملفات PDF باستخدام مكتبة Tesseract PHP المتقدمة مفتوحة المصدر.
من بين العديد من أدوات التعرف الضوئي على الحروف المتاحة، تبرز Tesseract OCR كواحدة من أقوى واجهات برمجة التطبيقات (API) وأكثرها تنوعًا، مما يتيح لمطوري البرامج إنشاء تطبيقات للتعرف على النص واستخراجه من مختلف المصادر المرئية الشائعة. يعد Tesseract OCR for PHP برنامجًا مفيدًا جدًا للعمل مع Tesseract OCR داخل تطبيقات PHP. يمكن لمكتبة Tesseract OCR مفتوحة المصدر لمكتبة PHP تحسين دقة التعرف الضوئي على الحروف عن طريق المعالجة المسبقة للصورة. يمكن تطبيق تقنيات مثل تغيير الحجم والتحويل الثنائي وإزالة الضوضاء والتعديل لتحسين رؤية النص وإزالة أي خلل قد يعيق التعرف عليه.
يوفر Tesseract OCR لمكتبة PHP العديد من الميزات المتقدمة وخيارات التخصيص لتحسين نتائج التعرف الضوئي على الحروف داخل تطبيقات PHP مثل التعامل مع المستندات متعددة اللغات، وتحديد اللغة (اللغات) المطلوبة أثناء تهيئة التعرف الضوئي على الحروف لتحسين الدقة للغات معينة، ودعم أوضاع تجزئة الصفحة، تحسين دقة التعرف على التطبيقات المتخصصة، ودعم التدريب على الخطوط أو الرموز المخصصة، أو أنماط نصية محددة، وتعزيز إمكانية الوصول، ورقمنة المستندات، وتحليلات النص، واستخراج البيانات وغير ذلك الكثير.
استخدم غلاف Tesseract PHP لتمرير الصورة التي تمت معالجتها مسبقًا إلى محرك Tesseract OCR. يوفر المجمع وظائف لتنفيذ التعرف الضوئي على الحروف واسترداد النص الذي تم التعرف عليه نتيجة لذلك. قد يتطلب النص المستخرج خطوات إضافية بعد المعالجة مثل التدقيق الإملائي أو التنسيق أو التعديلات الخاصة باللغة. يمكن استخدام مكتبات PHP مثل Symfony/string أو Text_LanguageDetect لهذه الأغراض. من خلال دمج Tesseract OCR في مشاريع PHP الخاصة بك، يمكن لمطوري البرامج تبسيط عملية معالجة المستندات، وأتمتة استخراج البيانات، وفتح مستوى جديد من الكفاءة وإمكانية الوصول إلى تطبيقاتهم.
البدء باستخدام Tesseract OCR لـ PHP
الطريقة الموصى بها لتثبيت Tesseract OCR لـ PHP هي استخدام Composer. الرجاء استخدام الأمر التالي للتثبيت السلس.
قم بتثبيت Tesseract OCR لـ PHP عبر Composer
$ composer require thiagoalessio/tesseract_ocr
Install Tesseract OCR for PHP via Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
يمكنك تنزيل المكتبة المشتركة المجمعة من مستودع Github.
استخراج النص من الصورة داخل تطبيقات PHP
توفر مكتبة Tesseract OCR مفتوحة المصدر لمكتبة PHP بعض الميزات المفيدة لاستخراج النص من الصور باستخدام أوامر PHP. توفر المكتبة أوضاعًا مختلفة لتجزئة الصفحة للتعامل مع التخطيطات وترتيبات النص المختلفة. ابدأ عملية الاستخراج عن طريق تحميل الصورة أو المستند الذي يحتوي على النص الذي تريد استخراجه. استخدم غلاف Tesseract PHP لتمرير الصورة المعالجة مسبقًا إلى محرك Tesseract OCR. يوفر المجمع وظائف لتنفيذ التعرف الضوئي على الحروف واسترداد النص الذي تم التعرف عليه نتيجة لذلك. يوضح المثال التالي العملية الأساسية لتحميل صورة واستخراج النص منها باستخدام أوامر PHP.
كيفية تحميل الصورة واستخراج النص باستخدام كود PHP؟
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
التعامل مع مخرجات التعرف الضوئي على الحروف داخل تطبيقات PHP
تضمنت مكتبة Tesseract OCR مفتوحة المصدر لمكتبة PHP ميزات مفيدة جدًا لحفظ النص الناتج الخاص بالتعرف الضوئي على الحروف داخل تطبيقات PHP والعمل معه. فهو يسمح بحفظ النص الصادر في بعض التنسيقات الشائعة مثل PDF وTXT وHTML وWord وغيرها الكثير. يسمح بالتعامل مع النص الذي تم التعرف عليه والمستخرج من الصورة. اعتمادًا على متطلبات التطبيق الخاص بك، قد تحتاج إلى مزيد من المعالجة أو التحليل للنص المستخرج. تشمل المهام الشائعة التحقق من صحة البيانات، وتنظيف النص، والتدقيق الإملائي، والتنسيق، والتكامل مع الأنظمة الأخرى للمعالجة المتقدمة أو التعديلات الخاصة باللغة. يمكن لمطوري البرامج بسهولة تحليل كميات كبيرة من البيانات النصية المستخرجة من المستندات، أو خلاصات الوسائط الاجتماعية، أو تعليقات العملاء لاستخلاص الرؤى، أو تحليل المشاعر، أو نمذجة المواضيع.
استرداد بيانات الصورة وحجمها وحفظها بتنسيق PDF عبر PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();