کتابخانه PHP منبع باز برای عملیات OCR روی تصاویر
رایگان PHP Optical Character Recognition API برای انجام عملیات OCR روی تصاویر، اسناد اسکن شده و PDF با استفاده از کتابخانه Tesseract PHP.
در میان ابزارهای متعدد OCR موجود، Tesseract OCR به عنوان یکی از قدرتمندترین و همه کارهترین API متمایز است که توسعهدهندگان نرمافزار را قادر میسازد تا برنامههایی برای شناسایی و استخراج متن از منابع بصری مختلف ایجاد کنند. Tesseract OCR برای PHP یک بسته بندی بسیار مفید برای کار با Tesseract OCR در داخل برنامه های PHP است. منبع باز Tesseract OCR برای کتابخانه PHP می تواند دقت OCR را با پیش پردازش تصویر افزایش دهد. تکنیکهایی مانند تغییر اندازه، دوتاییسازی، حذف نویز، و حالتزدایی را میتوان برای افزایش دید متن و حذف هرگونه مصنوع که ممکن است مانع از تشخیص شود، به کار برد.
Tesseract OCR برای کتابخانه PHP چندین ویژگی پیشرفته و گزینههای سفارشیسازی را برای بهبود نتایج OCR در برنامههای PHP ارائه میکند، مانند مدیریت اسناد چند زبانه، تعیین زبان(های) مورد نظر در طول اولیهسازی OCR برای بهبود دقت برای زبانهای خاص، پشتیبانی از حالتهای تقسیمبندی صفحه، بهبود دقت تشخیص برای برنامههای تخصصی، پشتیبانی آموزشی از فونتها یا نمادهای سفارشی، یا الگوهای متنی خاص، افزایش دسترسی، دیجیتالی کردن اسناد، تجزیه و تحلیل متن، استخراج دادهها و بسیاری موارد دیگر.
از پوشش PHP Tesseract برای ارسال تصویر از پیش پردازش شده به موتور Tesseract OCR استفاده کنید. Wrapper عملکردهایی را برای اجرای OCR و بازیابی متن شناخته شده در نتیجه ارائه می دهد. متن استخراجشده ممکن است به مراحل پس از پردازش اضافی مانند بررسی املا، قالببندی یا تغییرات خاص زبان نیاز داشته باشد. کتابخانه های PHP مانند Symfony/string یا Text_LanguageDetect را می توان برای این اهداف استفاده کرد. با ادغام Tesseract OCR در پروژههای PHP خود، توسعهدهندگان نرمافزار میتوانند پردازش اسناد را سادهتر کنند، استخراج دادهها را خودکار کنند، و سطح جدیدی از کارایی و دسترسی را در برنامههای خود باز کنند.
شروع به کار با Tesseract OCR برای PHP
روش توصیه شده برای نصب Tesseract OCR برای PHP استفاده از Composer است. لطفا از دستور زیر برای نصب راحت استفاده کنید.
Tesseract OCR را برای PHP از طریق Composer نصب کنید
$ composer require thiagoalessio/tesseract_ocr
Tesseract OCR را برای PHP از طریق Github نصب کنید
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
میتوانید کتابخانه مشترک کامپایلشده را از مخزن Github دانلود کنید.
استخراج متن از تصویر در داخل برنامه های PHP
کتابخانه متن باز Tesseract OCR برای PHP ویژگی های مفیدی را برای استخراج متن از تصاویر با استفاده از دستورات PHP ارائه کرده است. این کتابخانه حالتهای مختلف تقسیمبندی صفحه را برای مدیریت طرحبندیها و ترتیب متنهای مختلف ارائه میدهد. فرآیند استخراج را با بارگیری تصویر یا سندی که حاوی متنی است که می خواهید استخراج کنید، شروع کنید. از بسته بندی PHP Tesseract برای ارسال تصویر از پیش پردازش شده به موتور Tesseract OCR استفاده کنید. Wrapper عملکردهایی را برای اجرای OCR و بازیابی متن شناخته شده در نتیجه ارائه می دهد. مثال زیر یک فرآیند اولیه برای بارگذاری یک تصویر و استخراج متن از آن با استفاده از دستورات PHP را نشان می دهد.
چگونه با استفاده از کد PHP، تصویر را بارگیری و متن را استخراج کنیم؟
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
کنترل خروجی OCR در برنامه های PHP
Tesseract OCR منبع باز برای کتابخانه PHP دارای ویژگی های بسیار مفیدی برای ذخیره و کار با متن خروجی OCR در برنامه های PHP است. این اجازه می دهد تا متن را در برخی از فرمت های محبوب مانند PDF، TXT، HTML، Word و بسیاری دیگر ذخیره کنید. این اجازه می دهد تا متن شناسایی شده استخراج شده از تصویر را مدیریت کنید. بسته به نیازهای برنامه شما، ممکن است لازم باشد متن استخراج شده را بیشتر پردازش یا تجزیه و تحلیل کنید. وظایف رایج عبارتند از اعتبار سنجی داده ها، تمیز کردن متن، بررسی املا، قالب بندی، ادغام با سیستم های دیگر برای پردازش پیشرفته یا تغییرات خاص زبان. توسعهدهندگان نرمافزار به راحتی میتوانند حجم زیادی از دادههای متنی استخراجشده از اسناد، فیدهای رسانههای اجتماعی یا بازخورد مشتریان را برای بدست آوردن بینش، تحلیل احساسات یا مدلسازی موضوع تجزیه و تحلیل کنند.
بازیابی اطلاعات تصویر، اندازه و ذخیره آن در قالب PDF از طریق PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();