1. उत्पादों
  2.   OCR
  3.   Ruby
  4.   Ruby-Tesseract-OCR
 
  

Aछवियों से टेक्स्ट लोड करने और निकालने के लिए उन्नत निःशुल्क रूबी लाइब्रेरी

एक अग्रणी ओपन सोर्स रूबी ओसीआर एपीआई और इमेज टू टेक्स्ट कनवर्टर जो सॉफ्टवेयर डेवलपर्स को इमेज (स्कैन की गई छवियां और पीडीएफ फाइलें) से टेक्स्ट लोड करने, पहचानने और निकालने की अनुमति देता है।

ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) एक शक्तिशाली तकनीक है जो कंप्यूटर को छवियों या स्कैन किए गए दस्तावेज़ों से टेक्स्ट को पहचानने और निकालने में सक्षम बनाती है। इसमें मुद्रित सामग्री को डिजिटल बनाने से लेकर डेटा प्रविष्टि प्रक्रियाओं को स्वचालित करने तक कई अनुप्रयोग हैं। रूबी प्रोग्रामिंग भाषा में, ओसीआर के लिए एक लोकप्रिय लाइब्रेरी रूबी-टेस्सेरैक्ट-ओसीआर है। रूबी-टेसेरैक्ट-ओसीआर एक रूबी रत्न है जो टेसेरैक्ट ओसीआर इंजन के लिए एक आवरण के रूप में कार्य करता है। Tesseract Google द्वारा विकसित एक ओपन सोर्स OCR इंजन है और यह अपनी सटीकता और भाषा समर्थन के लिए प्रसिद्ध है।

रूबी-टेस्सेरैक्ट-ओसीआर बुनियादी ओसीआर क्षमताओं से आगे जाता है और उन्नत उपयोग के मामलों के लिए अतिरिक्त सुविधाएँ प्रदान करता है। उदाहरण के लिए, सॉफ्टवेयर डेवलपर ओसीआर विश्लेषण को एक विशिष्ट क्षेत्र तक सीमित करने के लिए एक छवि के भीतर रुचि का क्षेत्र (आरओआई) निर्दिष्ट कर सकते हैं। जटिल दस्तावेज़ों से निपटते समय या जब आपको केवल किसी विशिष्ट अनुभाग से पाठ निकालने की आवश्यकता होती है तो यह विशेष रूप से उपयोगी होता है। लाइब्रेरी OCR क्षमताओं को बढ़ाने के लिए कई अतिरिक्त सुविधाएँ प्रदान करती है, जैसे मौजूदा छवि को लोड करना, छवियों या स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालना, HOCR (HTML OCR) आउटपुट प्राप्त करना, और भी बहुत कुछ।

रूबी-टेस्सेरैक्ट-ओसीआर रत्न, टेसेरैक्ट इंजन के साथ इंटरैक्ट करने के लिए उपयोग में आसान इंटरफ़ेस प्रदान करता है, जो रूबी डेवलपर्स को ओसीआर क्षमताओं को उनकी परियोजनाओं में सहजता से एकीकृत करने में सक्षम बनाता है। चाहे आपको चालान से जानकारी निकालने, मुद्रित सामग्री को डिजिटाइज़ करने, या डेटा प्रविष्टि कार्यों को स्वचालित करने की आवश्यकता हो, ओपन सोर्स लाइब्रेरी एक विश्वसनीय और कुशल समाधान प्रदान करती है। इसे आज़माएं, और आज ही अपने रूबी प्रोजेक्ट्स में OCR की क्षमता को अनलॉक करें।

Previous Next

रूबी-टेस्सेरैक्ट-ओसीआर के साथ शुरुआत करना

रूबी-टेस्सेरैक्ट-ओसीआर को स्थापित करने का अनुशंसित तरीका रूबीजेम्स का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।

Rubygems के माध्यम से रूबी-टेस्सेरैक्ट-ओसीआर स्थापित करें

gem install tesseract-ocr 

आप संकलित साझा लाइब्रेरी को Github रिपॉजिटरी से डाउनलोड कर सकते हैं।

रूबी के माध्यम से छवियों और स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालें

रूबी-टेस्सेरैक्ट-ओसीआर एक बहुत शक्तिशाली ओपन सोर्स लाइब्रेरी है जो सॉफ्टवेयर डेवलपर्स को रूबी कोड की केवल कुछ पंक्तियों के साथ विभिन्न प्रकार की छवियों से टेक्स्ट लोड करने और निकालने की अनुमति देती है। लाइब्रेरी छवियों, पीडीएफएस या स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालना आसान बनाती है। विशिष्ट वर्कफ़्लो में एक छवि लोड करना, ओसीआर मापदंडों को कॉन्फ़िगर करना और पाठ को पहचानने के लिए ओसीआर इंजन को लागू करना शामिल है। एक सफल ऑपरेशन के लिए डेवलपर्स को उस छवि के लिए पथ प्रदान करना होगा जिसे वे संसाधित करना चाहते हैं और टेक्स्ट निकालने के लिए text_for विधि को कॉल करना चाहते हैं। अंत में, परिणाम कंसोल पर प्रिंट हो जाएगा। लाइब्रेरी OCR व्यवहार को नियंत्रित करने के लिए विभिन्न Fconfiguration विकल्प प्रदान करती है, जैसे पृष्ठ विभाजन मोड, श्वेतसूची वर्ण, और बहुत कुछ। निम्नलिखित उदाहरण दिखाते हैं कि कैसे सॉफ्टवेयर डेवलपर एक जेपीईजी छवि को लोड कर सकते हैं और रूबी अनुप्रयोगों के अंदर से टेक्स्ट निकाल सकते हैं।

रूबी कमांड का उपयोग करके छवियों से टेक्स्ट कैसे निकालें?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

रूबी के माध्यम से किसी विशेष छवि क्षेत्र से टेक्स्ट निकालें

ओपन सोर्स रूबी-टेस्सेरैक्ट-ओसीआर लाइब्रेरी बुनियादी ओसीआर क्षमताओं से आगे जाती है और उन्नत उपयोग के मामलों के लिए अतिरिक्त सुविधाएँ प्रदान करती है। उदाहरण के लिए, उपयोगकर्ता ओसीआर विश्लेषण को एक विशिष्ट क्षेत्र तक सीमित करने के लिए छवि के भीतर रुचि का क्षेत्र (आरओआई) निर्दिष्ट कर सकते हैं। जटिल दस्तावेज़ों से निपटते समय या जब उपयोगकर्ताओं को केवल किसी विशिष्ट अनुभाग से पाठ निकालने की आवश्यकता होती है तो यह विशेष रूप से उपयोगी होता है। इसके अतिरिक्त, लाइब्रेरी एचओसीआर (एचटीएमएल ओसीआर) आउटपुट प्राप्त करने के तरीके प्रदान करती है, जिसमें न केवल मान्यता प्राप्त पाठ बल्कि पाठ तत्वों के लेआउट और निर्देशांक के बारे में जानकारी भी शामिल है। HOCR आउटपुट तब सहायक होता है जब आपको अधिक विस्तृत डेटा की आवश्यकता होती है या आप टेक्स्ट संरचना पर आगे का विश्लेषण करना चाहते हैं।

रूबी लाइब्रेरी के माध्यम से किसी छवि पर hOCR कैसे निष्पादित करें?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')
 हिन्दी