छवियों पर ओसीआर संचालन के लिए ओपन सोर्स पीएचपी लाइब्रेरी
Tesseract PHP लाइब्रेरी का उपयोग करके छवियों, स्कैन किए गए दस्तावेज़ों और PDF पर OCR संचालन करने के लिए निःशुल्क PHP ऑप्टिकल कैरेक्टर रिकॉग्निशन एपीआई।
उपलब्ध कई ओसीआर उपकरणों में से, टेसेरैक्ट ओसीआर सबसे शक्तिशाली और बहुमुखी एपीआई में से एक है जो सॉफ्टवेयर डेवलपर्स को विभिन्न लोकप्रिय दृश्य स्रोतों से पाठ को पहचानने और निकालने के लिए एप्लिकेशन बनाने में सक्षम बनाता है। PHP के लिए Tesseract OCR, PHP अनुप्रयोगों के अंदर Tesseract OCR के साथ काम करने के लिए एक बहुत ही उपयोगी रैपर है। PHP लाइब्रेरी के लिए खुला स्रोत Tesseract OCR छवि को प्रीप्रोसेस करके OCR सटीकता को बढ़ा सकता है। पाठ की दृश्यता बढ़ाने और पहचान में बाधा उत्पन्न करने वाली किसी भी कलाकृति को हटाने के लिए आकार बदलने, बिनरीकरण, शोर हटाने और डेस्कविंग जैसी तकनीकों को लागू किया जा सकता है।
PHP लाइब्रेरी के लिए Tesseract OCR, PHP अनुप्रयोगों के अंदर OCR परिणामों को बढ़ाने के लिए कई उन्नत सुविधाएँ और अनुकूलन विकल्प प्रदान करता है जैसे कि बहुभाषी दस्तावेज़ों को संभालना, विशिष्ट भाषाओं के लिए सटीकता में सुधार करने के लिए OCR आरंभीकरण के दौरान वांछित भाषा निर्दिष्ट करना, पृष्ठ विभाजन मोड समर्थन, विशिष्ट अनुप्रयोगों के लिए पहचान सटीकता में सुधार, कस्टम फ़ॉन्ट या प्रतीकों या विशिष्ट पाठ पैटर्न पर प्रशिक्षण समर्थन, पहुंच बढ़ाना, दस्तावेज़ डिजिटलीकरण, पाठ विश्लेषण, डेटा निष्कर्षण और बहुत कुछ।
पूर्व-संसाधित छवि को Tesseract OCR इंजन में भेजने के लिए Tesseract PHP रैपर का उपयोग करें। रैपर ओसीआर को निष्पादित करने और परिणामस्वरूप मान्यता प्राप्त पाठ को पुनः प्राप्त करने के लिए फ़ंक्शन प्रदान करता है। निकाले गए पाठ को अतिरिक्त पोस्ट-प्रोसेसिंग चरणों जैसे वर्तनी-जांच, स्वरूपण, या भाषा-विशिष्ट संशोधनों की आवश्यकता हो सकती है। इन उद्देश्यों के लिए सिम्फनी/स्ट्रिंग या टेक्स्ट_लैंग्वेजडिटेक्ट जैसी PHP लाइब्रेरीज़ को नियोजित किया जा सकता है। आपके PHP प्रोजेक्ट्स में Tesseract OCR को एकीकृत करके, सॉफ़्टवेयर डेवलपर दस्तावेज़ प्रसंस्करण को सुव्यवस्थित कर सकते हैं, डेटा निष्कर्षण को स्वचालित कर सकते हैं, और अपने अनुप्रयोगों में दक्षता और पहुंच के एक नए स्तर को अनलॉक कर सकते हैं।
PHP के लिए Tesseract OCR के साथ शुरुआत करना
PHP के लिए Tesseract OCR स्थापित करने का अनुशंसित तरीका कंपोज़र का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।
कंपोजर के माध्यम से PHP के लिए Tesseract OCR स्थापित करें
$ composer require thiagoalessio/tesseract_ocr
Github के माध्यम से PHP के लिए Tesseract OCR स्थापित करें
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
आप संकलित साझा लाइब्रेरी को Github रिपॉजिटरी से डाउनलोड कर सकते हैं।
PHP ऐप्स के अंदर छवि से टेक्स्ट निकालें
PHP लाइब्रेरी के लिए ओपन सोर्स Tesseract OCR ने PHP कमांड का उपयोग करके छवियों से टेक्स्ट निकालने के लिए कुछ उपयोगी सुविधाएँ प्रदान की हैं। लाइब्रेरी विभिन्न लेआउट और पाठ व्यवस्था को संभालने के लिए विभिन्न पृष्ठ विभाजन मोड प्रदान करती है। उस छवि या दस्तावेज़ को लोड करके निष्कर्षण प्रक्रिया प्रारंभ करें जिसमें वह पाठ है जिसे आप निकालना चाहते हैं। पूर्व-संसाधित छवि को Tesseract OCR इंजन में पास करने के लिए Tesseract PHP रैपर का उपयोग करें। रैपर ओसीआर को निष्पादित करने और परिणामस्वरूप मान्यता प्राप्त पाठ को पुनः प्राप्त करने के लिए फ़ंक्शन प्रदान करता है। निम्नलिखित उदाहरण PHP कमांड का उपयोग करके एक छवि को लोड करने और उसमें से टेक्स्ट निकालने की एक बुनियादी प्रक्रिया दिखाता है।
PHP कोड का उपयोग करके छवि कैसे लोड करें और टेक्स्ट कैसे निकालें?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP ऐप्स के अंदर OCR आउटपुट को संभालना
PHP लाइब्रेरी के लिए ओपन सोर्स Tesseract OCR में PHP अनुप्रयोगों के अंदर OCR के आउटपुट टेक्स्ट को सहेजने और उसके साथ काम करने के लिए बहुत उपयोगी सुविधाएँ शामिल हैं। यह आउट टेक्स्ट को पीडीएफ, टीएक्सटी, एचटीएमएल, वर्ड और कई अन्य लोकप्रिय प्रारूपों में सहेजने की अनुमति देता है। यह छवि से निकाले गए मान्यता प्राप्त पाठ को संभालने की अनुमति देता है। आपके एप्लिकेशन की आवश्यकताओं के आधार पर, आपको निकाले गए पाठ को आगे संसाधित करने या उसका विश्लेषण करने की आवश्यकता हो सकती है। सामान्य कार्यों में डेटा सत्यापन, पाठ सफाई, वर्तनी जांच, स्वरूपण, उन्नत प्रसंस्करण या भाषा-विशिष्ट संशोधनों के लिए अन्य प्रणालियों के साथ एकीकरण शामिल है। सॉफ़्टवेयर डेवलपर अंतर्दृष्टि, भावना विश्लेषण या विषय मॉडलिंग प्राप्त करने के लिए दस्तावेज़ों, सोशल मीडिया फ़ीड या ग्राहक प्रतिक्रिया से निकाले गए बड़ी मात्रा में टेक्स्ट डेटा का आसानी से विश्लेषण कर सकते हैं।
छवि डेटा, आकार पुनर्प्राप्त करें और इसे PHP API के माध्यम से पीडीएफ प्रारूप में सहेजें
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();