مكتبة PHP لاستخراج نص الصورة بعدة لغات

واجهة برمجة تطبيقات التعرف الضوئي على الأحرف (OCR) مفتوحة المصدر للـ PHP تتيح تحميل ومسح الصور أو المستندات، التعرف واستخراج النص من الصور بعدة لغات داخل تطبيقات PHP.

تقنية التعرف الضوئي على الأحرف (OCR) أصبحت أداة أساسية لاستخراج النص من الصور والمستندات في الوقت الحالي. مع تزايد التحول الرقمي، أصبحت الحاجة إلى حلول OCR فعّالة ودقيقة أكثر إلحاحًا من أي وقت مضى. OcrPHP هي مكتبة OCR مفتوحة المصدر قوية تمكّن مطوري البرمجيات من بناء تطبيقات OCR قوية وقابلة للتوسع. إنها مكتبة OCR مبنية على PHP وتستفيد من محرك Tesseract OCR، وهو تقنية OCR واسعة الاستخدام وذات سمعة عالية تم تطويرها من قبل Google. تحتوي المكتبة على العديد من الميزات مثل مسح المستندات، استخراج النص من الصور، استخراج النص بلغة محددة، استخراج النص من ملفات PDF، والعديد غير ذلك.

تتضمن مكتبة OcrPHP تقنيات متقدمة لمعالجة الصور قبل التحليل، مثل تصحيح الميل، إزالة الضوضاء، والتحويل إلى ثنائي، لتحسين دقة OCR. تدعم تنفيذ OCR بعدة لغات، بما في ذلك الإنجليزية، الإسبانية، الفرنسية، الألمانية، الإيطالية، البرتغالية، الصينية، اليابانية، والعديد غيرها. يمكن لمطوري البرمجيات تخصيص عملية OCR عن طريق ضبط معلمات مثل اللغة، وضع تقسيم الصفحة، وإعدادات محرك OCR. كما تضم آليات قوية لمعالجة الأخطاء لضمان تنفيذ عمليات OCR بسلاسة وكفاءة. بفضل ميزات مثل دعم متعدد اللغات، مسح الصور المتقدم، التكوينات المخصصة، والتكامل السهل، تمكّن المكتبة المطورين من إنشاء أدوات التعرف على النص بجهد قليل وتكلفة منخفضة.

نظرة سريعة

نظرة عامة على ميزات OcrPHP.

نظرة عامة على الميزات

تنفيذ OCR
إضافة قدرات OCR
التعرف على النص بالعديد من اللغات
تحويل الصور النصية
نص الخط المعترف به
البحث في PDF
لغات أخرى
إنشاء تطبيقات OCR
حفظ إلى المتصفح
استخراج النص
دعم متعدد الخيوط

OcrPHP

يدعم OcrPHP صيغ ملفات الضغط الشائعة المذكورة أدناه.

قارئ

PNG, JPEG, BMP, TIFF, TGA, DICOM

كاتب

PNG, JPEG, BMP, TIFF

OcrPHP

استقلالية المنصة

يتطلب OcrPHP فقط بيئة تشغيل PHP.

PHP 5.1 وما فوق.

OcrPHP

البدء مع OcrPHP

الطريقة الموصى بها لتثبيت OcrPHP هي باستخدام Composer. يرجى استخدام الأمر التالي لتثبيت سلس.

تثبيت OcrPHP عبر Composer

composer require fizzday/ocrphp

تثبيت OcrPHP عبر Github

git clone https://github.com/fizzday/OcrPHP.git

يمكنك تنزيل المكتبة المشتركة المجمعة من Github المستودع.

التعرف واستخراج النص من صورة عبر PHP

مكتبة OcrPHP المفتوحة المصدر تجعل من السهل على البرمجيات تحميل أنواع مختلفة من الصور واستخراج النص منها ببضع أسطر من كود PHP. إليك مثال بسيط جدًا يستخدم مكتبة Imagick لتحميل ملف صورة وإنشاء نسخة من فئة OcrPHP. بعد ذلك يمكن للمطورين ضبط اللغة وإعدادات محرك OCR قبل تنفيذ OCR على الصورة باستخدام طريقة recognize(). أخيرًا، يتم طباعة النص المستخرج باستخدام طريقة getText().

كيف تستخرج النص من صورة باستخدام مكتبة PHP؟

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

التعرف على النص بلغة محددة عبر PHP

توفر مكتبة OcrPHP دعمًا لعدة لغات لإجراء عمليات OCR داخل تطبيقات PHP. سواء كان نصك بالإنجليزية أو الصينية أو أي لغة مدعومة أخرى، يمكن لـ OcrPHP التعامل معها بسلاسة. لاستخراج النص بلغة محددة، مرّر رمز اللغة كمعامل. تأكد من تثبيت نموذج لغة Tesseract المقابل. يوضح المثال التالي كيف يمكن للمطورين استخراج النص من صور باللغة الصينية داخل تطبيقات PHP.

كيف تستخرج النص من صورة باللغة الصينية عبر PHP؟

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

المعالجة الدفعية وأتمتة OCR عبر PHP

للمطورين الذين يبنون تطبيقات معالجة المستندات، يمكن أن تكون المعالجة الدفعية ميزة قيمة. تجعل مكتبة OcrPHP المفتوحة المصدر من السهل على المطورين تكرار قراءة دليل يحتوي على ملفات صور واستخراج النص من كل صورة تلقائيًا. هذا مثالي لأتمتة مهام مثل مسح الفواتير، الإيصالات، أو الكتب. إليك مثال مفيد جدًا يقوم بمسح جميع ملفات .png في الدليل المحدد، استخراج النص من كل منها، وطباعة النتيجة. يمكنك توسيع المثال لحفظ المخرجات إلى ملف أو قاعدة بيانات، مما يجعله أداة قوية لمعالجة المستندات.

كيف تستخرج النص من عدة صور عبر مكتبة PHP؟

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

دعم التكوين المخصص والتكامل

مكتبة OcrPHP المفتوحة المصدر هي مكتبة متعددة الاستخدامات وصديقة للمطورين تُبسّط دمج قدرات OCR في مشاريع PHP. تسمح المكتبة بتحديد إعدادات مخصصة لـ Tesseract، مثل اللغة، وضع تقسيم الصفحة، ومعلمات معالجة الصور، مما يوفر مرونة لتخصيص نتائج OCR.