کتابخانه PHP برای استخراج متن تصویر به چندین زبان
API منبع باز تشخیص نوری کاراکتر (OCR) برای PHP امکان بارگذاری و اسکن تصاویر یا اسناد، تشخیص و استخراج متن از تصاویر به چندین زبان را در برنامههای PHP فراهم میکند.
تکنولوژی تشخیص نوری کاراکتر (OCR) امروزه به ابزاری اساسی برای استخراج متن از تصاویر و اسناد تبدیل شده است. با گسترش تحول دیجیتال، نیاز به راهحلهای OCR کارآمد و دقیق هرگز اینچنین مهم نبوده است. OcrPHP یک کتابخانه منبع باز بسیار قدرتمند است که به توسعهدهندگان نرمافزار امکان ساخت برنامههای OCR قوی و مقیاسپذیر را میدهد. این کتابخانه مبتنی بر PHP است و از موتور Tesseract OCR استفاده میکند، تکنولوژی OCR پرکاربرد و معتبر که توسط گوگل توسعه یافته است. ویژگیهای متعددی در این کتابخانه وجود دارد، از جمله اسکن اسناد، استخراج متن از تصاویر، استخراج متن به زبان خاص، استخراج متن از PDFها و موارد دیگر.
کتابخانه OcrPHP شامل تکنیکهای پیشرفته پیشپردازش تصویر مانند اصلاح چرخش، حذف نقاط زائد و باینریسازی برای بهبود دقت OCR است. این کتابخانه از انجام OCR به چندین زبان، از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، چینی، ژاپنی و بسیاری دیگر پشتیبانی میکند. توسعهدهندگان میتوانند فرآیند OCR را با تنظیم پارامترهایی مانند زبان، حالت تقسیمبندی صفحه و تنظیمات موتور OCR سفارشیسازی کنند. همچنین مکانیزمهای قوی مدیریت خطا برای اطمینان از اجرای روان و کارآمد عملیات OCR گنجانده شده است. با ویژگیهایی مانند پشتیبانی چندزبانه، اسکن پیشرفته تصویر، پیکربندیهای سفارشی و ادغام ساده، این کتابخانه به توسعهدهندگان امکان ایجاد ابزارهای تشخیص متن متنوع با تلاش کم و هزینه پایین را میدهد.
شروع کار با OcrPHP
روش پیشنهادی برای نصب OcrPHP استفاده از Composer است. لطفاً برای نصب بدون مشکل از دستور زیر استفاده کنید.
نصب OcrPHP از طریق Composer
composer require fizzday/ocrphpنصب OcrPHP از طریق Github
git clone https://github.com/fizzday/OcrPHP.git میتوانید کتابخانهٔ مشترک کامپایلشده را از مخزن Github دانلود کنید.
تشخیص و استخراج متن از یک تصویر با PHP
کتابخانه منبع باز OcrPHP کار بارگذاری انواع تصاویر و استخراج متن از آنها را تنها با چند خط کد PHP آسان میکند. در اینجا یک مثال بسیار ساده آورده شده است که از کتابخانه Imagick برای بارگذاری یک فایل تصویر و ایجاد یک نمونه از کلاس OcrPHP استفاده میکند. سپس توسعهدهندگان میتوانند زبان و تنظیمات موتور OCR را تنظیم کرده و با فراخوانی متد recognize() OCR را روی تصویر انجام دهند. در نهایت متن استخراجشده با متد getText() چاپ میشود.
چگونه متن را از یک تصویر با استفاده از کتابخانه PHP استخراج کنیم؟
require_once 'OcrPHP/autoload.php';
// Load the image file
$image = new Imagick('path/to/image.jpg');
// Create an instance of the OcrPHP class
$ocr = new OcrPHP();
// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Perform OCR on the image
$result = $ocr->recognize($image);
// Print the extracted text
echo $result->getText();
تشخیص متن به زبان خاص با PHP
کتابخانه OcrPHP پشتیبانی از چندین زبان را برای انجام عملیات OCR در برنامههای PHP فراهم میکند. چه متن شما به انگلیسی، چینی یا هر زبان پشتیبانیشده دیگری باشد، OcrPHP بهراحتی میتواند آن را پردازش کند. برای استخراج متن به زبان خاص، کد زبان را بهعنوان پارامتر پاس میدهید. اطمینان حاصل کنید که مدل زبان مربوط به Tesseract نصب شده باشد. مثال زیر نشان میدهد چگونه توسعهدهندگان میتوانند متن را از تصاویر به زبان چینی در برنامههای PHP استخراج کنند.
چگونه متن را از یک تصویر به زبان چینی با PHP استخراج کنیم؟
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English
echo "Extracted Text (Chinese): \n" . $text;
پردازش دستهای و خودکارسازی OCR با PHP
برای توسعهدهندگان نرمافزار که برنامههای پردازش اسناد میسازند، پردازش دستهای میتواند ویژگی ارزشمندی باشد. کتابخانه منبع باز OcrPHP بهراحتی به توسعهدهندگان اجازه میدهد تا در یک پوشه از فایلهای تصویری حلقه بزنند و بهصورت خودکار متن هر یک را استخراج کنند. این ویژگی برای خودکارسازی کارهایی مانند اسکن فاکتورها، رسیدها یا کتابها ایدهآل است. در این مثال مفید تمام فایلهای .png موجود در پوشه مشخص اسکن میشوند، متن هر کدام استخراج و چاپ میشود. میتوانید خروجی را به فایل یا پایگاهداده ذخیره کنید تا ابزار قدرتمندی برای پردازش اسناد داشته باشید.
چگونه متن را از چندین تصویر با کتابخانه PHP استخراج کنیم؟
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
پیکربندی سفارشی و پشتیبانی ادغام
کتابخانه منبع باز OcrPHP یک کتابخانه چندمنظوره و کاربرپسند است که ادغام قابلیتهای OCR را در پروژههای PHP ساده میکند. این کتابخانه به شما اجازه میدهد تا پیکربندیهای سفارشی Tesseract مانند زبان، حالت تقسیمبندی صفحه و پارامترهای پیشپردازش تصویر را مشخص کنید و انعطافپذیری لازم برای تنظیم نتایج OCR را فراهم میآورد.