1. محصولات
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

کتابخانه PHP منبع باز برای عملیات OCR روی تصاویر

رایگان PHP Optical Character Recognition API برای انجام عملیات OCR روی تصاویر، اسناد اسکن شده و PDF با استفاده از کتابخانه Tesseract PHP.

در میان ابزارهای متعدد OCR موجود، Tesseract OCR به عنوان یکی از قدرتمندترین و همه کاره‌ترین API متمایز است که توسعه‌دهندگان نرم‌افزار را قادر می‌سازد تا برنامه‌هایی برای شناسایی و استخراج متن از منابع بصری مختلف ایجاد کنند. Tesseract OCR برای PHP یک بسته بندی بسیار مفید برای کار با Tesseract OCR در داخل برنامه های PHP است. منبع باز Tesseract OCR برای کتابخانه PHP می تواند دقت OCR را با پیش پردازش تصویر افزایش دهد. تکنیک‌هایی مانند تغییر اندازه، دوتایی‌سازی، حذف نویز، و حالت‌زدایی را می‌توان برای افزایش دید متن و حذف هرگونه مصنوع که ممکن است مانع از تشخیص شود، به کار برد.

Tesseract OCR برای کتابخانه PHP چندین ویژگی پیشرفته و گزینه‌های سفارشی‌سازی را برای بهبود نتایج OCR در برنامه‌های PHP ارائه می‌کند، مانند مدیریت اسناد چند زبانه، تعیین زبان(های) مورد نظر در طول اولیه‌سازی OCR برای بهبود دقت برای زبان‌های خاص، پشتیبانی از حالت‌های تقسیم‌بندی صفحه، بهبود دقت تشخیص برای برنامه‌های تخصصی، پشتیبانی آموزشی از فونت‌ها یا نمادهای سفارشی، یا الگوهای متنی خاص، افزایش دسترسی، دیجیتالی کردن اسناد، تجزیه و تحلیل متن، استخراج داده‌ها و بسیاری موارد دیگر.

از پوشش PHP Tesseract برای ارسال تصویر از پیش پردازش شده به موتور Tesseract OCR استفاده کنید. Wrapper عملکردهایی را برای اجرای OCR و بازیابی متن شناخته شده در نتیجه ارائه می دهد. متن استخراج‌شده ممکن است به مراحل پس از پردازش اضافی مانند بررسی املا، قالب‌بندی یا تغییرات خاص زبان نیاز داشته باشد. کتابخانه های PHP مانند Symfony/string یا Text_LanguageDetect را می توان برای این اهداف استفاده کرد. با ادغام Tesseract OCR در پروژه‌های PHP خود، توسعه‌دهندگان نرم‌افزار می‌توانند پردازش اسناد را ساده‌تر کنند، استخراج داده‌ها را خودکار کنند، و سطح جدیدی از کارایی و دسترسی را در برنامه‌های خود باز کنند.

Previous Next

شروع به کار با Tesseract OCR برای PHP

روش توصیه شده برای نصب Tesseract OCR برای PHP استفاده از Composer است. لطفا از دستور زیر برای نصب راحت استفاده کنید.

Tesseract OCR را برای PHP از طریق Composer نصب کنید

$ composer require thiagoalessio/tesseract_ocr 

Tesseract OCR را برای PHP از طریق Github نصب کنید

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

می‌توانید کتابخانه مشترک کامپایل‌شده را از مخزن Github دانلود کنید.

استخراج متن از تصویر در داخل برنامه های PHP

کتابخانه متن باز Tesseract OCR برای PHP ویژگی های مفیدی را برای استخراج متن از تصاویر با استفاده از دستورات PHP ارائه کرده است. این کتابخانه حالت‌های مختلف تقسیم‌بندی صفحه را برای مدیریت طرح‌بندی‌ها و ترتیب متن‌های مختلف ارائه می‌دهد. فرآیند استخراج را با بارگیری تصویر یا سندی که حاوی متنی است که می خواهید استخراج کنید، شروع کنید. از بسته بندی PHP Tesseract برای ارسال تصویر از پیش پردازش شده به موتور Tesseract OCR استفاده کنید. Wrapper عملکردهایی را برای اجرای OCR و بازیابی متن شناخته شده در نتیجه ارائه می دهد. مثال زیر یک فرآیند اولیه برای بارگذاری یک تصویر و استخراج متن از آن با استفاده از دستورات PHP را نشان می دهد.

چگونه با استفاده از کد PHP، تصویر را بارگیری و متن را استخراج کنیم؟

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

کنترل خروجی OCR در برنامه های PHP

Tesseract OCR منبع باز برای کتابخانه PHP دارای ویژگی های بسیار مفیدی برای ذخیره و کار با متن خروجی OCR در برنامه های PHP است. این اجازه می دهد تا متن را در برخی از فرمت های محبوب مانند PDF، TXT، HTML، Word و بسیاری دیگر ذخیره کنید. این اجازه می دهد تا متن شناسایی شده استخراج شده از تصویر را مدیریت کنید. بسته به نیازهای برنامه شما، ممکن است لازم باشد متن استخراج شده را بیشتر پردازش یا تجزیه و تحلیل کنید. وظایف رایج عبارتند از اعتبار سنجی داده ها، تمیز کردن متن، بررسی املا، قالب بندی، ادغام با سیستم های دیگر برای پردازش پیشرفته یا تغییرات خاص زبان. توسعه‌دهندگان نرم‌افزار به راحتی می‌توانند حجم زیادی از داده‌های متنی استخراج‌شده از اسناد، فیدهای رسانه‌های اجتماعی یا بازخورد مشتریان را برای بدست آوردن بینش، تحلیل احساسات یا مدل‌سازی موضوع تجزیه و تحلیل کنند.

بازیابی اطلاعات تصویر، اندازه و ذخیره آن در قالب PDF از طریق PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 فارسی