Aछवियों से टेक्स्ट लोड करने और निकालने के लिए उन्नत निःशुल्क रूबी लाइब्रेरी
एक अग्रणी ओपन सोर्स रूबी ओसीआर एपीआई और इमेज टू टेक्स्ट कनवर्टर जो सॉफ्टवेयर डेवलपर्स को इमेज (स्कैन की गई छवियां और पीडीएफ फाइलें) से टेक्स्ट लोड करने, पहचानने और निकालने की अनुमति देता है।
ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) एक शक्तिशाली तकनीक है जो कंप्यूटर को छवियों या स्कैन किए गए दस्तावेज़ों से टेक्स्ट को पहचानने और निकालने में सक्षम बनाती है। इसमें मुद्रित सामग्री को डिजिटल बनाने से लेकर डेटा प्रविष्टि प्रक्रियाओं को स्वचालित करने तक कई अनुप्रयोग हैं। रूबी प्रोग्रामिंग भाषा में, ओसीआर के लिए एक लोकप्रिय लाइब्रेरी रूबी-टेस्सेरैक्ट-ओसीआर है। रूबी-टेसेरैक्ट-ओसीआर एक रूबी रत्न है जो टेसेरैक्ट ओसीआर इंजन के लिए एक आवरण के रूप में कार्य करता है। Tesseract Google द्वारा विकसित एक ओपन सोर्स OCR इंजन है और यह अपनी सटीकता और भाषा समर्थन के लिए प्रसिद्ध है।
रूबी-टेस्सेरैक्ट-ओसीआर बुनियादी ओसीआर क्षमताओं से आगे जाता है और उन्नत उपयोग के मामलों के लिए अतिरिक्त सुविधाएँ प्रदान करता है। उदाहरण के लिए, सॉफ्टवेयर डेवलपर ओसीआर विश्लेषण को एक विशिष्ट क्षेत्र तक सीमित करने के लिए एक छवि के भीतर रुचि का क्षेत्र (आरओआई) निर्दिष्ट कर सकते हैं। जटिल दस्तावेज़ों से निपटते समय या जब आपको केवल किसी विशिष्ट अनुभाग से पाठ निकालने की आवश्यकता होती है तो यह विशेष रूप से उपयोगी होता है। लाइब्रेरी OCR क्षमताओं को बढ़ाने के लिए कई अतिरिक्त सुविधाएँ प्रदान करती है, जैसे मौजूदा छवि को लोड करना, छवियों या स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालना, HOCR (HTML OCR) आउटपुट प्राप्त करना, और भी बहुत कुछ।
रूबी-टेस्सेरैक्ट-ओसीआर रत्न, टेसेरैक्ट इंजन के साथ इंटरैक्ट करने के लिए उपयोग में आसान इंटरफ़ेस प्रदान करता है, जो रूबी डेवलपर्स को ओसीआर क्षमताओं को उनकी परियोजनाओं में सहजता से एकीकृत करने में सक्षम बनाता है। चाहे आपको चालान से जानकारी निकालने, मुद्रित सामग्री को डिजिटाइज़ करने, या डेटा प्रविष्टि कार्यों को स्वचालित करने की आवश्यकता हो, ओपन सोर्स लाइब्रेरी एक विश्वसनीय और कुशल समाधान प्रदान करती है। इसे आज़माएं, और आज ही अपने रूबी प्रोजेक्ट्स में OCR की क्षमता को अनलॉक करें।
रूबी-टेस्सेरैक्ट-ओसीआर के साथ शुरुआत करना
रूबी-टेस्सेरैक्ट-ओसीआर को स्थापित करने का अनुशंसित तरीका रूबीजेम्स का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।
Rubygems के माध्यम से रूबी-टेस्सेरैक्ट-ओसीआर स्थापित करें
gem install tesseract-ocr
आप संकलित साझा लाइब्रेरी को Github रिपॉजिटरी से डाउनलोड कर सकते हैं।
रूबी के माध्यम से छवियों और स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालें
रूबी-टेस्सेरैक्ट-ओसीआर एक बहुत शक्तिशाली ओपन सोर्स लाइब्रेरी है जो सॉफ्टवेयर डेवलपर्स को रूबी कोड की केवल कुछ पंक्तियों के साथ विभिन्न प्रकार की छवियों से टेक्स्ट लोड करने और निकालने की अनुमति देती है। लाइब्रेरी छवियों, पीडीएफएस या स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालना आसान बनाती है। विशिष्ट वर्कफ़्लो में एक छवि लोड करना, ओसीआर मापदंडों को कॉन्फ़िगर करना और पाठ को पहचानने के लिए ओसीआर इंजन को लागू करना शामिल है। एक सफल ऑपरेशन के लिए डेवलपर्स को उस छवि के लिए पथ प्रदान करना होगा जिसे वे संसाधित करना चाहते हैं और टेक्स्ट निकालने के लिए text_for विधि को कॉल करना चाहते हैं। अंत में, परिणाम कंसोल पर प्रिंट हो जाएगा। लाइब्रेरी OCR व्यवहार को नियंत्रित करने के लिए विभिन्न Fconfiguration विकल्प प्रदान करती है, जैसे पृष्ठ विभाजन मोड, श्वेतसूची वर्ण, और बहुत कुछ। निम्नलिखित उदाहरण दिखाते हैं कि कैसे सॉफ्टवेयर डेवलपर एक जेपीईजी छवि को लोड कर सकते हैं और रूबी अनुप्रयोगों के अंदर से टेक्स्ट निकाल सकते हैं।
रूबी कमांड का उपयोग करके छवियों से टेक्स्ट कैसे निकालें?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
e.text_for('test/first.png').strip # => 'ABC'
रूबी के माध्यम से किसी विशेष छवि क्षेत्र से टेक्स्ट निकालें
ओपन सोर्स रूबी-टेस्सेरैक्ट-ओसीआर लाइब्रेरी बुनियादी ओसीआर क्षमताओं से आगे जाती है और उन्नत उपयोग के मामलों के लिए अतिरिक्त सुविधाएँ प्रदान करती है। उदाहरण के लिए, उपयोगकर्ता ओसीआर विश्लेषण को एक विशिष्ट क्षेत्र तक सीमित करने के लिए छवि के भीतर रुचि का क्षेत्र (आरओआई) निर्दिष्ट कर सकते हैं। जटिल दस्तावेज़ों से निपटते समय या जब उपयोगकर्ताओं को केवल किसी विशिष्ट अनुभाग से पाठ निकालने की आवश्यकता होती है तो यह विशेष रूप से उपयोगी होता है। इसके अतिरिक्त, लाइब्रेरी एचओसीआर (एचटीएमएल ओसीआर) आउटपुट प्राप्त करने के तरीके प्रदान करती है, जिसमें न केवल मान्यता प्राप्त पाठ बल्कि पाठ तत्वों के लेआउट और निर्देशांक के बारे में जानकारी भी शामिल है। HOCR आउटपुट तब सहायक होता है जब आपको अधिक विस्तृत डेटा की आवश्यकता होती है या आप टेक्स्ट संरचना पर आगे का विश्लेषण करना चाहते हैं।
रूबी लाइब्रेरी के माध्यम से किसी छवि पर hOCR कैसे निष्पादित करें?
require 'tesseract'
e = Tesseract::Engine.new {|e|
e.language = :eng
e.blacklist = '|'
}
puts e.hocr_for('test/first.png')