1. পণ্য
  2.   OCR
  3.   PHP
  4.   OcrPHP
 
  

PHP Library to Extract Image Text in Multiple Languages

Open Source PHP Optical Character Recognition API allows to Load & Scan Images or Documents, Recognize & Extract Text from Images in Multiple Languages inside PHP Apps.

অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) প্রযুক্তি আজকাল ইমেজ এবং ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করার একটি অপরিহার্য টুলে পরিণত হয়েছে। ডিজিটাল ট্রান্সফরমেশন বৃদ্ধির সঙ্গে সঙ্গে, কার্যকর এবং সঠিক OCR সমাধানের প্রয়োজন কখনও এত তীব্র ছিল না। OcrPHP একটি অত্যন্ত শক্তিশালী ওপেন সোর্স OCR লাইব্রেরি যা সফটওয়্যার ডেভেলপারদের মজবুত এবং স্কেলযোগ্য OCR অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে। এটি একটি PHP-ভিত্তিক OCR লাইব্রেরি যা গুগল দ্বারা উন্নত ব্যাপকভাবে ব্যবহৃত এবং উচ্চ প্রশংসিত OCR প্রযুক্তি Tesseract OCR ইঞ্জিন ব্যবহার করে। লাইব্রেরির মধ্যে রয়েছে ডকুমেন্ট স্ক্যানিং, ইমেজ থেকে টেক্সট এক্সট্র্যাকশন, নির্দিষ্ট ভাষায় টেক্সট এক্সট্র্যাকশন, PDF থেকে টেক্সট এক্সট্র্যাকশন এবং আরও অনেক ফিচার।

OcrPHP লাইব্রেরি উন্নত ইমেজ প্রি-প্রসেসিং টেকনিক, যেমন ডেস্কিউইং, ডেসপেকলিং এবং বাইনারাইজেশন, অন্তর্ভুক্ত করেছে যাতে OCR নির্ভুলতা বৃদ্ধি পায়। এটি একাধিক ভাষায় OCR সম্পাদনকে সমর্থন করে, যার মধ্যে ইংরেজি, স্প্যানিশ, ফরাসি, জার্মান, ইতালিয়ান, পর্তুগিজ, চাইনিজ, জাপানিজ এবং আরও অনেক ভাষা রয়েছে। সফটওয়্যার ডেভেলপাররা ভাষা, পেজ সেগমেন্টেশন মোড এবং OCR ইঞ্জিন সেটিংসের মতো প্যারামিটার সমন্বয় করে OCR প্রক্রিয়াকে কাস্টমাইজ করতে পারে। এটি শক্তিশালী ত্রুটি হ্যান্ডলিং মেকানিজম অন্তর্ভুক্ত করেছে যাতে OCR অপারেশনগুলি মসৃণ এবং কার্যকরভাবে সম্পন্ন হয়। মাল্টি-ল্যাঙ্গুয়েজ সাপোর্ট, উন্নত ইমেজ স্ক্যানিং, কাস্টম কনফিগারেশন এবং সরল ইন্টিগ্রেশন মতো ফিচারগুলোর মাধ্যমে এটি ডেভেলপারদের কম প্রচেষ্টায় এবং কম খরচে বহুমুখী টেক্সট-রেকগনিশন টুল তৈরি করতে সক্ষম করে।

Previous Next

OcrPHP দিয়ে শুরু করা

OcrPHP ইনস্টল করার সুপারিশকৃত পদ্ধতি হল Composer ব্যবহার করা। মসৃণ ইনস্টলেশনের জন্য নিচের কমান্ডটি ব্যবহার করুন।

Composer দিয়ে OcrPHP ইনস্টল করুন

composer require fizzday/ocrphp

Github দিয়ে OcrPHP ইনস্টল করুন

git clone https://github.com/fizzday/OcrPHP.git 

আপনি Github রিপোজিটরি থেকে কম্পাইল করা শেয়ার্ড লাইব্রেরি ডাউনলোড করতে পারেন।

PHP দিয়ে ইমেজ থেকে টেক্সট স্বীকৃতি ও এক্সট্র্যাক্ট করা

ওপেন সোর্স OcrPHP লাইব্রেরি সফটওয়্যারকে বিভিন্ন ধরনের ইমেজ লোড করে এবং কয়েকটি PHP কোড লাইনের মাধ্যমে সেসব ইমেজ থেকে টেক্সট এক্সট্র্যাক্ট করা সহজ করে। এখানে একটি খুবই সহজ উদাহরণ রয়েছে, যা Imagick লাইব্রেরি ব্যবহার করে একটি ইমেজ ফাইল লোড করে এবং OcrPHP ক্লাসের একটি ইনস্ট্যান্স তৈরি করে। ডেভেলপাররা এরপর ভাষা এবং OCR ইঞ্জিন সেটিংস নির্ধারণ করে recognize() মেথড ব্যবহার করে ইমেজে OCR সম্পাদন করতে পারে। শেষ পর্যন্ত, getText() মেথড ব্যবহার করে এক্সট্র্যাক্ট করা টেক্সট প্রিন্ট করা হয়।

PHP লাইব্রেরি ব্যবহার করে ইমেজ থেকে টেক্সট কীভাবে এক্সট্র্যাক্ট করবেন?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

নির্দিষ্ট ভাষায় টেক্সট স্বীকৃতি করা (PHP)

OcrPHP লাইব্রেরি একাধিক ভাষা সমর্থন করে যাতে PHP অ্যাপ্লিকেশনের মধ্যে OCR অপারেশন সম্পাদন করা যায়। আপনার টেক্সট ইংরেজি, চাইনিজ বা অন্য কোনো সমর্থিত ভাষায় হোক, OcrPHP তা নির্বিঘ্নে হ্যান্ডল করতে পারে। নির্দিষ্ট ভাষায় টেক্সট এক্সট্র্যাক্ট করতে, ভাষা কোডটি প্যারামিটার হিসেবে পাঠান। নিশ্চিত করুন যে সংশ্লিষ্ট Tesseract ভাষা মডেলটি ইনস্টল করা আছে। নিচের উদাহরণটি দেখায় কীভাবে ডেভেলপাররা PHP অ্যাপ্লিকেশনের মধ্যে চাইনিজ ভাষায় ইমেজ থেকে টেক্সট এক্সট্র্যাক্ট করতে পারে।

PHP দিয়ে চাইনিজ ভাষায় ইমেজ থেকে টেক্সট কীভাবে এক্সট্র্যাক্ট করবেন?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

ব্যাচ প্রসেসিং এবং OCR অটোমেশন (PHP)

ডকুমেন্ট প্রসেসিং অ্যাপ্লিকেশন তৈরি করা সফটওয়্যার ডেভেলপারদের জন্য, ব্যাচ প্রসেসিং একটি মূল্যবান ফিচার হতে পারে। ওপেন সোর্স OcrPHP ডেভেলপারদের একটি ডিরেক্টরির ইমেজ ফাইলগুলোর উপর লুপ করে স্বয়ংক্রিয়ভাবে প্রতিটি ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা সহজ করে। এটি ইনভয়েস, রিসিপ্ট বা বই স্ক্যান করার মতো কাজ স্বয়ংক্রিয় করার জন্য আদর্শ। নিচে একটি খুবই ব্যবহারিক উদাহরণ রয়েছে যা নির্দিষ্ট ডিরেক্টরির সব .png ফাইল স্ক্যান করে, প্রতিটি থেকে টেক্সট এক্সট্র্যাক্ট করে এবং প্রিন্ট করে। আপনি আউটপুটকে ফাইল বা ডাটাবেসে সংরক্ষণ করার জন্যও সম্প্রসারিত করতে পারেন, যা ডকুমেন্ট প্রসেসিংয়ের জন্য একটি শক্তিশালী টুলে রূপান্তরিত হয়।

PHP লাইব্রেরি ব্যবহার করে একাধিক ইমেজ থেকে টেক্সট কীভাবে এক্সট্র্যাক্ট করবেন?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

কাস্টম কনফিগারেশন ও ইন্টিগ্রেশন সাপোর্ট

ওপেন সোর্স OcrPHP একটি বহুমুখী এবং ডেভেলপার-বন্ধুত্বপূর্ণ লাইব্রেরি যা PHP প্রকল্পে OCR সক্ষমতা ইন্টিগ্রেট করা সহজ করে। লাইব্রেরি আপনাকে কাস্টম Tesseract কনফিগারেশন, যেমন ভাষা, পেজ সেগমেন্টেশন মোড এবং ইমেজ প্রি-প্রসেসিং প্যারামিটার নির্ধারণের সুযোগ দেয়, যা OCR ফলাফলকে আপনার প্রয়োজন অনুযায়ী টেইলর করতে নমনীয়তা প্রদান করে।

 বাংলা