کتابخانه PHP برای استخراج متن تصویر به چندین زبان

API منبع باز تشخیص نوری کاراکتر (OCR) برای PHP امکان بارگذاری و اسکن تصاویر یا اسناد، تشخیص و استخراج متن از تصاویر به چندین زبان را در برنامه‌های PHP فراهم می‌کند.

تکنولوژی تشخیص نوری کاراکتر (OCR) امروزه به ابزاری اساسی برای استخراج متن از تصاویر و اسناد تبدیل شده است. با گسترش تحول دیجیتال، نیاز به راه‌حل‌های OCR کارآمد و دقیق هرگز این‌چنین مهم نبوده است. OcrPHP یک کتابخانه منبع باز بسیار قدرتمند است که به توسعه‌دهندگان نرم‌افزار امکان ساخت برنامه‌های OCR قوی و مقیاس‌پذیر را می‌دهد. این کتابخانه مبتنی بر PHP است و از موتور Tesseract OCR استفاده می‌کند، تکنولوژی OCR پرکاربرد و معتبر که توسط گوگل توسعه یافته است. ویژگی‌های متعددی در این کتابخانه وجود دارد، از جمله اسکن اسناد، استخراج متن از تصاویر، استخراج متن به زبان خاص، استخراج متن از PDFها و موارد دیگر.

کتابخانه OcrPHP شامل تکنیک‌های پیشرفته پیش‌پردازش تصویر مانند اصلاح چرخش، حذف نقاط زائد و باینری‌سازی برای بهبود دقت OCR است. این کتابخانه از انجام OCR به چندین زبان، از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی و بسیاری دیگر پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند فرآیند OCR را با تنظیم پارامترهایی مانند زبان، حالت تقسیم‌بندی صفحه و تنظیمات موتور OCR سفارشی‌سازی کنند. همچنین مکانیزم‌های قوی مدیریت خطا برای اطمینان از اجرای روان و کارآمد عملیات OCR گنجانده شده است. با ویژگی‌هایی مانند پشتیبانی چندزبانه، اسکن پیشرفته تصویر، پیکربندی‌های سفارشی و ادغام ساده، این کتابخانه به توسعه‌دهندگان امکان ایجاد ابزارهای تشخیص متن متنوع با تلاش کم و هزینه پایین را می‌دهد.

در یک نگاه

نمای کلی ویژگی‌های OcrPHP.

نمای کلی ویژگی‌ها

اجرای OCR
افزودن قابلیت‌های OCR
تشخیص متن به زبان‌های متعدد
تبدیل تصاویر متن
متن فونت شناسایی‌شده
جستجو در PDF
زبان‌های دیگر
ایجاد برنامه‌های OCR
ذخیره در مرورگر
استخراج متن
پشتیبانی از چندنخی

OcrPHP

OcrPHP فرمت‌های فایل فشرده محبوب زیر را پشتیبانی می‌کند.

خواننده

PNG, JPEG, BMP, TIFF, TGA, DICOM

نویسنده

PNG, JPEG, BMP, TIFF

OcrPHP

استقلال پلتفرم

OcrPHP فقط به محیط اجرای PHP نیاز دارد.

PHP 5.1 به بالا.

OcrPHP

شروع کار با OcrPHP

روش پیشنهادی برای نصب OcrPHP استفاده از Composer است. لطفاً برای نصب بدون مشکل از دستور زیر استفاده کنید.

نصب OcrPHP از طریق Composer

composer require fizzday/ocrphp

نصب OcrPHP از طریق Github

git clone https://github.com/fizzday/OcrPHP.git

می‌توانید کتابخانهٔ مشترک کامپایل‌شده را از مخزن Github دانلود کنید.

تشخیص و استخراج متن از یک تصویر با PHP

کتابخانه منبع باز OcrPHP کار بارگذاری انواع تصاویر و استخراج متن از آن‌ها را تنها با چند خط کد PHP آسان می‌کند. در اینجا یک مثال بسیار ساده آورده شده است که از کتابخانه Imagick برای بارگذاری یک فایل تصویر و ایجاد یک نمونه از کلاس OcrPHP استفاده می‌کند. سپس توسعه‌دهندگان می‌توانند زبان و تنظیمات موتور OCR را تنظیم کرده و با فراخوانی متد recognize() OCR را روی تصویر انجام دهند. در نهایت متن استخراج‌شده با متد getText() چاپ می‌شود.

چگونه متن را از یک تصویر با استفاده از کتابخانه PHP استخراج کنیم؟

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

تشخیص متن به زبان خاص با PHP

کتابخانه OcrPHP پشتیبانی از چندین زبان را برای انجام عملیات OCR در برنامه‌های PHP فراهم می‌کند. چه متن شما به انگلیسی، چینی یا هر زبان پشتیبانی‌شده دیگری باشد، OcrPHP به‌راحتی می‌تواند آن را پردازش کند. برای استخراج متن به زبان خاص، کد زبان را به‌عنوان پارامتر پاس می‌دهید. اطمینان حاصل کنید که مدل زبان مربوط به Tesseract نصب شده باشد. مثال زیر نشان می‌دهد چگونه توسعه‌دهندگان می‌توانند متن را از تصاویر به زبان چینی در برنامه‌های PHP استخراج کنند.

چگونه متن را از یک تصویر به زبان چینی با PHP استخراج کنیم؟

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

پردازش دسته‌ای و خودکارسازی OCR با PHP

برای توسعه‌دهندگان نرم‌افزار که برنامه‌های پردازش اسناد می‌سازند، پردازش دسته‌ای می‌تواند ویژگی ارزشمندی باشد. کتابخانه منبع باز OcrPHP به‌راحتی به توسعه‌دهندگان اجازه می‌دهد تا در یک پوشه از فایل‌های تصویری حلقه بزنند و به‌صورت خودکار متن هر یک را استخراج کنند. این ویژگی برای خودکارسازی کارهایی مانند اسکن فاکتورها، رسیدها یا کتاب‌ها ایده‌آل است. در این مثال مفید تمام فایل‌های .png موجود در پوشه مشخص اسکن می‌شوند، متن هر کدام استخراج و چاپ می‌شود. می‌توانید خروجی را به فایل یا پایگاه‌داده ذخیره کنید تا ابزار قدرتمندی برای پردازش اسناد داشته باشید.

چگونه متن را از چندین تصویر با کتابخانه PHP استخراج کنیم؟

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

پیکربندی سفارشی و پشتیبانی ادغام

کتابخانه منبع باز OcrPHP یک کتابخانه چندمنظوره و کاربرپسند است که ادغام قابلیت‌های OCR را در پروژه‌های PHP ساده می‌کند. این کتابخانه به شما اجازه می‌دهد تا پیکربندی‌های سفارشی Tesseract مانند زبان، حالت تقسیم‌بندی صفحه و پارامترهای پیش‌پردازش تصویر را مشخص کنید و انعطاف‌پذیری لازم برای تنظیم نتایج OCR را فراهم می‌آورد.