ইমেজে OCR অপারেশনের জন্য ওপেন সোর্স পিএইচপি লাইব্রেরি
Tesseract PHP লাইব্রেরি ব্যবহার করে ইমেজ, স্ক্যান করা ডকুমেন্ট এবং পিডিএফ-এ OCR অপারেশন করার জন্য বিনামূল্যে PHP অপটিক্যাল ক্যারেক্টার রিকগনিশন API।
উপলব্ধ অসংখ্য OCR টুলের মধ্যে, Tesseract OCR সবচেয়ে শক্তিশালী এবং বহুমুখী API হিসেবে দাঁড়িয়েছে সফটওয়্যার ডেভেলপারদের বিভিন্ন জনপ্রিয় ভিজ্যুয়াল সোর্স থেকে টেক্সট চিনতে এবং বের করার জন্য অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে। PHP-এর জন্য Tesseract OCR পিএইচপি অ্যাপ্লিকেশনের ভিতরে Tesseract OCR-এর সাথে কাজ করার জন্য একটি খুব দরকারী মোড়ক। PHP লাইব্রেরির জন্য ওপেন সোর্স Tesseract OCR ইমেজটিকে প্রিপ্রসেস করে OCR নির্ভুলতা বাড়াতে পারে। পাঠ্যের দৃশ্যমানতা বাড়ানোর জন্য এবং স্বীকৃতিকে বাধাগ্রস্ত করতে পারে এমন যেকোন আর্টিফ্যাক্ট অপসারণের জন্য আকার পরিবর্তন করা, বাইনারিকরণ, শব্দ অপসারণ এবং ডেস্কউইং-এর মতো কৌশলগুলি প্রয়োগ করা যেতে পারে৷
PHP লাইব্রেরির জন্য Tesseract OCR পিএইচপি অ্যাপ্লিকেশনের অভ্যন্তরে ওসিআর ফলাফলগুলিকে উন্নত করার জন্য বিভিন্ন উন্নত বৈশিষ্ট্য এবং কাস্টমাইজেশন বিকল্পগুলি অফার করে যেমন বহুভাষিক নথিগুলি পরিচালনা করা, নির্দিষ্ট ভাষার জন্য নির্ভুলতা উন্নত করার জন্য ওসিআর শুরুর সময় পছন্দসই ভাষা(গুলি) নির্দিষ্ট করা, পৃষ্ঠা বিভাজন মোড সমর্থন, বিশেষায়িত অ্যাপ্লিকেশনের জন্য স্বীকৃতির নির্ভুলতা উন্নত করা, কাস্টম ফন্ট বা প্রতীক বা নির্দিষ্ট পাঠ্য প্যাটার্নের প্রশিক্ষণ সহায়তা, অ্যাক্সেসিবিলিটি উন্নত করা, নথির ডিজিটাইজেশন, পাঠ্য বিশ্লেষণ, ডেটা নিষ্কাশন এবং আরও অনেক কিছু।
টেসার্যাক্ট ওসিআর ইঞ্জিনে প্রি-প্রসেসড ইমেজ পাস করতে Tesseract PHP র্যাপার ব্যবহার করুন। মোড়ক OCR কার্যকর করার জন্য ফাংশন প্রদান করে এবং ফলস্বরূপ স্বীকৃত পাঠ্য পুনরুদ্ধার করে। নিষ্কাশন করা পাঠ্যের জন্য অতিরিক্ত পোস্ট-প্রসেসিং পদক্ষেপের প্রয়োজন হতে পারে যেমন বানান-পরীক্ষা, বিন্যাসকরণ, বা ভাষা-নির্দিষ্ট পরিবর্তন। PHP লাইব্রেরি যেমন Symfony/string বা Text_LanguageDetect এই উদ্দেশ্যে নিযুক্ত করা যেতে পারে। আপনার PHP প্রকল্পগুলিতে Tesseract OCR সংহত করার মাধ্যমে, সফ্টওয়্যার বিকাশকারীরা নথি প্রক্রিয়াকরণকে স্ট্রীমলাইন করতে পারে, ডেটা নিষ্কাশন স্বয়ংক্রিয় করতে পারে এবং তাদের অ্যাপ্লিকেশনগুলিতে দক্ষতা এবং অ্যাক্সেসযোগ্যতার একটি নতুন স্তর আনলক করতে পারে৷
PHP এর জন্য Tesseract OCR দিয়ে শুরু করা
PHP-এর জন্য Tesseract OCR ইনস্টল করার সুপারিশ করার উপায় হল কম্পোজার ব্যবহার করা। একটি মসৃণ ইনস্টলেশনের জন্য অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন।
কম্পোজারের মাধ্যমে PHP-এর জন্য Tesseract OCR ইনস্টল করুন
$ composer require thiagoalessio/tesseract_ocr
Github এর মাধ্যমে PHP-এর জন্য Tesseract OCR ইনস্টল করুন
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
আপনি Github সংগ্রহস্থল থেকে কম্পাইল করা শেয়ার করা লাইব্রেরি ডাউনলোড করতে পারেন।
পিএইচপি অ্যাপের ভিতরের চিত্র থেকে পাঠ্য বের করুন
PHP লাইব্রেরির জন্য ওপেন সোর্স Tesseract OCR পিএইচপি কমান্ড ব্যবহার করে ছবি থেকে পাঠ্য বের করার জন্য কিছু দরকারী বৈশিষ্ট্য প্রদান করেছে। লাইব্রেরি বিভিন্ন লেআউট এবং পাঠ্য বিন্যাস পরিচালনা করার জন্য বিভিন্ন পৃষ্ঠা বিভাজন মোড অফার করে। আপনি যে টেক্সটটি এক্সট্র্যাক্ট করতে চান সেই ইমেজ বা ডকুমেন্টটি লোড করে নিষ্কাশন প্রক্রিয়া শুরু করুন। Tesseract OCR ইঞ্জিনে প্রি-প্রসেসড ইমেজ পাস করতে Tesseract PHP র্যাপার ব্যবহার করুন। মোড়ক OCR কার্যকর করার জন্য ফাংশন প্রদান করে এবং ফলস্বরূপ স্বীকৃত পাঠ্য পুনরুদ্ধার করে। নিম্নলিখিত উদাহরণটি পিএইচপি কমান্ড ব্যবহার করে একটি চিত্র লোড করার এবং এটি থেকে পাঠ্য বের করার একটি প্রাথমিক প্রক্রিয়া দেখায়।
কিভাবে PHP কোড ব্যবহার করে ইমেজ লোড করবেন এবং টেক্সট এক্সট্রাক্ট করবেন?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP অ্যাপের মধ্যে OCR আউটপুট পরিচালনা করা
PHP লাইব্রেরির জন্য ওপেন সোর্স Tesseract OCR পিএইচপি অ্যাপ্লিকেশনের ভিতরে OCR-এর আউটপুট পাঠ্য সংরক্ষণ এবং কাজ করার জন্য একটি খুব দরকারী বৈশিষ্ট্য অন্তর্ভুক্ত করেছে। এটি পিডিএফ, টিএক্সটি, এইচটিএমএল, ওয়ার্ড এবং আরও অনেক কিছু জনপ্রিয় ফর্ম্যাটে আউট টেক্সট সংরক্ষণ করার অনুমতি দেয়। এটি ইমেজ থেকে বের করা স্বীকৃত পাঠ্য পরিচালনা করার অনুমতি দেয়। আপনার আবেদনের প্রয়োজনীয়তার উপর নির্ভর করে, আপনাকে আরও প্রক্রিয়া বা নিষ্কাশন করা পাঠ্য বিশ্লেষণ করতে হতে পারে। সাধারণ কাজগুলির মধ্যে রয়েছে ডেটা যাচাইকরণ, পাঠ্য পরিষ্কার করা, বানান পরীক্ষা করা, বিন্যাস করা, উন্নত প্রক্রিয়াকরণ বা ভাষা-নির্দিষ্ট পরিবর্তনের জন্য অন্যান্য সিস্টেমের সাথে একীভূত করা। সফ্টওয়্যার বিকাশকারীরা সহজেই নথি, সোশ্যাল মিডিয়া ফিড বা গ্রাহক প্রতিক্রিয়া থেকে প্রাপ্ত টেক্সট ডেটার বিশাল ভলিউম বিশ্লেষণ করতে পারে অন্তর্দৃষ্টি, অনুভূতি বিশ্লেষণ, বা বিষয় মডেলিং।
ইমেজ ডেটা, সাইজ পুনরুদ্ধার করুন এবং পিএইচপি API এর মাধ্যমে পিডিএফ ফরম্যাটে সংরক্ষণ করুন
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();