कई भाषाओं में इमेज टेक्स्ट निकालने के लिए PHP लाइब्रेरी
ओपन सोर्स PHP ऑप्टिकल कैरेक्टर रिकग्निशन API इमेज या दस्तावेज़ लोड और स्कैन करने, कई भाषाओं में इमेज से टेक्स्ट पहचानने और निकालने की अनुमति देता है PHP एप्लिकेशन्स के भीतर.
ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) तकनीक आजकल इमेज और दस्तावेज़ों से टेक्स्ट निकालने के लिए एक आवश्यक टूल बन गई है। डिजिटल ट्रांसफ़ॉर्मेशन के बढ़ने के साथ, कुशल और सटीक OCR समाधान की आवश्यकता पहले से अधिक तीव्र हो गई है। OcrPHP एक बहुत ही शक्तिशाली ओपन सोर्स OCR लाइब्रेरी है जो सॉफ़्टवेयर डेवलपर्स को मजबूत और स्केलेबल OCR एप्लिकेशन बनाने में सक्षम बनाती है। यह एक PHP‑आधारित OCR लाइब्रेरी है जो Google द्वारा विकसित व्यापक रूप से उपयोग किए जाने वाले Tesseract OCR इंजन का उपयोग करती है। लाइब्रेरी में कई सुविधाएँ शामिल हैं, जैसे दस्तावेज़ स्कैनिंग, इमेज से टेक्स्ट निकालना, विशिष्ट भाषा में टेक्स्ट एक्सट्रैक्शन, PDF से टेक्स्ट निकालना, और बहुत कुछ।
OcrPHP लाइब्रेरी ने उन्नत इमेज प्री‑प्रोसेसिंग तकनीकों को शामिल किया है, जैसे डेस्क्यूइंग, डेस्पेक्लिंग, और बाइनराइज़ेशन, जिससे OCR की सटीकता में सुधार होता है। यह कई भाषाओं में OCR करने का समर्थन करता है, जिनमें अंग्रेज़ी, स्पेनिश, फ्रेंच, जर्मन, इटालियन, पुर्तगाली, चीनी, जापानी और कई अन्य शामिल हैं। सॉफ़्टवेयर डेवलपर्स भाषा, पेज सेगमेंटेशन मोड, और OCR इंजन सेटिंग्स जैसे पैरामीटर को समायोजित करके OCR प्रक्रिया को कस्टमाइज़ कर सकते हैं। इसमें मजबूत एरर हैंडलिंग मैकेनिज़्म भी शामिल हैं ताकि OCR ऑपरेशन्स सुचारू और कुशलता से चल सकें। मल्टी‑लैंग्वेज सपोर्ट, उन्नत इमेज स्कैनिंग, कस्टम कॉन्फ़िगरेशन और आसान इंटीग्रेशन जैसी सुविधाओं के साथ, यह डेवलपर्स को कम प्रयास और कम लागत में बहुमुखी टेक्स्ट‑रिकग्निशन टूल बनाने में सक्षम बनाता है।
OcrPHP के साथ शुरूआत
OcrPHP स्थापित करने की अनुशंसित विधि Composer का उपयोग करना है। कृपया सुगम स्थापना के लिए नीचे दिया गया कमांड उपयोग करें।
Composer के माध्यम से OcrPHP स्थापित करें
composer require fizzday/ocrphpGithub के माध्यम से OcrPHP स्थापित करें
git clone https://github.com/fizzday/OcrPHP.git आप Github रिपॉज़िटरी से संकलित साझा लाइब्रेरी डाउनलोड कर सकते हैं।
PHP के माध्यम से इमेज से टेक्स्ट पहचानें और निकालें
ओपन सोर्स OcrPHP लाइब्रेरी सॉफ़्टवेयर को विभिन्न प्रकार की इमेज लोड करने और केवल कुछ लाइनों के PHP कोड से उन इमेज से टेक्स्ट निकालने में आसान बनाती है। यहाँ एक बहुत सरल उदाहरण है, जो Imagick लाइब्रेरी का उपयोग करके इमेज फ़ाइल लोड करता है और OcrPHP क्लास का एक इंस्टेंस बनाता है। डेवलपर्स इसके बाद भाषा और OCR इंजन सेटिंग्स को सेट कर सकते हैं, फिर recognize() मेथड से इमेज पर OCR कर सकते हैं। अंत में, getText() मेथड से निकाला गया टेक्स्ट प्रिंट किया जाता है।
PHP लाइब्रेरी का उपयोग करके इमेज से टेक्स्ट कैसे निकालें?
require_once 'OcrPHP/autoload.php';
// Load the image file
$image = new Imagick('path/to/image.jpg');
// Create an instance of the OcrPHP class
$ocr = new OcrPHP();
// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Perform OCR on the image
$result = $ocr->recognize($image);
// Print the extracted text
echo $result->getText();
PHP के माध्यम से विशिष्ट भाषा में टेक्स्ट पहचानें
OcrPHP लाइब्रेरी ने कई भाषाओं के लिए समर्थन प्रदान किया है ताकि PHP एप्लिकेशन्स के भीतर OCR ऑपरेशन्स किए जा सकें। चाहे आपका टेक्स्ट अंग्रेज़ी, चीनी या कोई अन्य समर्थित भाषा में हो, OcrPHP इसे सहजता से संभाल सकता है। विशिष्ट भाषा में टेक्स्ट निकालने के लिए, भाषा कोड को पैरामीटर के रूप में पास करें। सुनिश्चित करें कि संबंधित Tesseract भाषा मॉडल स्थापित हो। नीचे दिया गया उदाहरण दिखाता है कि डेवलपर्स PHP एप्लिकेशन्स के भीतर चीनी भाषा में इमेज से टेक्स्ट कैसे निकाल सकते हैं।
PHP के माध्यम से चीनी भाषा में इमेज से टेक्स्ट कैसे निकालें?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English
echo "Extracted Text (Chinese): \n" . $text;
PHP के माध्यम से बैच प्रोसेसिंग और OCR ऑटोमेशन
दस्तावेज़ प्रोसेसिंग एप्लिकेशन्स बनाने वाले सॉफ़्टवेयर डेवलपर्स के लिए, बैच प्रोसेसिंग एक मूल्यवान फीचर हो सकता है। ओपन सोर्स OcrPHP डेवलपर्स को इमेज फ़ाइलों की डायरेक्टरी पर लूप करके प्रत्येक फ़ाइल से स्वचालित रूप से टेक्स्ट निकालने में आसान बनाता है। यह इनवॉइस, रसीद या पुस्तकों को स्कैन करने जैसे कार्यों को ऑटोमेट करने के लिए परिपूर्ण है। नीचे एक बहुत उपयोगी उदाहरण है जो निर्दिष्ट डायरेक्टरी में सभी .png फ़ाइलों को स्कैन करता है, प्रत्येक से टेक्स्ट निकालता है और उसे प्रिंट करता है। आप इसे आउटपुट को फ़ाइल या डेटाबेस में सहेजने के लिए विस्तारित कर सकते हैं, जिससे यह दस्तावेज़ प्रोसेसिंग के लिए एक शक्तिशाली टूल बन जाता है।
PHP लाइब्रेरी का उपयोग करके कई इमेज से टेक्स्ट कैसे निकालें?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
कस्टम कॉन्फ़िगरेशन और इंटीग्रेशन समर्थन
ओपन सोर्स OcrPHP एक बहुमुखी और डेवलपर‑फ्रेंडली लाइब्रेरी है जो PHP प्रोजेक्ट्स में OCR क्षमताओं को एकीकृत करना सरल बनाती है। लाइब्रेरी आपको कस्टम Tesseract कॉन्फ़िगरेशन, जैसे भाषा, पेज सेगमेंटेशन मोड, और इमेज प्री‑प्रोसेसिंग पैरामीटर, निर्दिष्ट करने की अनुमति देती है, जिससे OCR परिणामों को अपनी आवश्यकता के अनुसार ढालना संभव हो जाता है।