स्मार्ट OCR ऐप्स बनाने के लिए ओपन सोर्स पायथन API
नि:शुल्क पायथन OCR API जो छवियों से टेक्स्ट का पता लगाता और पहचानता है, जिसमें प्राकृतिक दृश्य, फ़ॉर्म और पायथन ऐप्स में स्कैन किए गए दस्तावेज़ शामिल हैं।
MonkeyOCR क्या है?
MonkeyOCR एक उन्नत, एंड-टू-एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग पर आधारित है, उन सॉफ़्टवेयर डेवलपर्स के लिए जो एक शक्तिशाली और लचीला समाधान चाहते हैं। युलियांग लियू द्वारा विकसित, यह लाइब्रेरी विविध स्रोतों से, जैसे प्राकृतिक दृश्य, फ़ॉर्म और स्कैन किए गए दस्तावेज़, टेक्स्ट का सटीक पता लगाने और पहचानने में सक्षम बनाती है। इसका मॉड्यूलर और स्केलेबल आर्किटेक्चर अत्याधुनिक डीप लर्निंग तकनीकों को एक मजबूत इन्फ़रेंस पाइपलाइन के साथ मिलाता है, जिससे यह वास्तविक दुनिया के टेक्स्ट पहचान कार्यों के लिए अत्यंत उपयुक्त बन जाता है। व्यावहारिक अनुप्रयोगों में इनवॉइस स्कैनिंग, आईडी कार्ड रीडिंग, साइनबोर्ड से टेक्स्ट निकालना और बहुभाषी OCR या PDF‑से‑डेटा पाइपलाइन बनाना शामिल है।
अधिकतम लचीलापन प्रदान करने के लिए डिज़ाइन किया गया, MonkeyOCR सॉफ़्टवेयर इंजीनियरों को व्यावसायिक OCR इंजन से स्वतंत्र रूप से बुद्धिमान दस्तावेज़ प्रोसेसिंग सिस्टम बनाने की शक्ति देता है। इसमें कई उन्नत सुविधाएँ हैं, जैसे पूरी तरह मॉड्यूलर OCR पाइपलाइन, सरल YAML फ़ाइल कॉन्फ़िगरेशन, और कुशल बैच इन्फ़रेंस समर्थन। सिस्टम सटीक टेक्स्ट बॉक्स आउटपुट को कॉऑर्डिनेट्स के साथ प्रदान करता है, DBNet++ जैसे आधुनिक मॉडल का उपयोग करके डिटेक्शन और CRNN के साथ रिकग्निशन करता है, सभी को एक कॉन्फ़िगरेबल प्री‑और‑पोस्ट‑प्रोसेसिंग फ्रेमवर्क में सम्मिलित किया गया है। मॉड्यूलर डिज़ाइन, समकालीन मॉडलों के समर्थन और आसान कॉन्फ़िगरेशन का यह संयोजन MonkeyOCR को एंटरप्राइज़ दस्तावेज़ ऑटोमेशन से लेकर मोबाइल‑आधारित सीन टेक्स्ट रिकग्निशन तक, वास्तविक‑विश्व अनुप्रयोगों के निर्माण के लिए आदर्श बनाता है।
MonkeyOCR के साथ शुरूआत
MonkeyOCR स्थापित करने का अनुशंसित तरीका pip का उपयोग करना है। सुगम स्थापना के लिए कृपया नीचे दिया गया कमांड उपयोग करें।
pip के माध्यम से MonkeyOCR स्थापित करें
pip install MonkeyOCR GitHub के माध्यम से MonkeyOCR स्थापित करें
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git आप इसे मैन्युअली भी स्थापित कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉज़िटरी से डाउनलोड करें।
Python के माध्यम से रसीद छवि से टेक्स्ट निकालना
ओपन सोर्स MonkeyOCR एक एंड‑टू‑एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग तकनीकों पर आधारित है। ऐसे सॉफ़्टवेयर डेवलपर्स जो दस्तावेज़, आईडी, रसीद या लाइसेंस प्लेट स्कैन करने वाले ऐप बनाते हैं, MonkeyOCR को सीधे अपने बैक‑एंड पाइपलाइन में प्लग कर सकते हैं। इसके मॉड्यूलर डिज़ाइन के कारण आप केवल डिटेक्शन मॉडल या उसे रिकग्निशन के साथ मिलाकर छवियों से संरचित टेक्स्ट निकाल सकते हैं। नीचे एक सरल उदाहरण दिया गया है जो Python API का उपयोग करके रसीद छवि से टेक्स्ट निकालता है।
Python API के माध्यम से रसीद छवि से टेक्स्ट कैसे निकालें?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
विशिष्ट उपयोग मामलों के लिए कस्टम OCR पाइपलाइन
ओपन सोर्स MonkeyOCR लाइब्रेरी की सबसे बड़ी ताकत इसका मॉड्यूलर आर्किटेक्चर है। सॉफ़्टवेयर डेवलपर्स अपनी एप्लिकेशन आवश्यकताओं के आधार पर डिटेक्शन, रिकग्निशन और क्लासिफिकेशन मॉडल जैसे घटकों को मिलाकर उपयोग कर सकते हैं। उदाहरण के तौर पर, एक दस्तावेज़ स्कैनिंग ऐप हल्के मॉडल जैसे DBNet को डिटेक्शन के लिए और CRNN को रिकग्निशन के लिए उपयोग कर सकता है, जिससे गति और सटीकता दोनों में सुधार होता है।
Python API के माध्यम से कस्टम OCR पाइपलाइन?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
व्यवसाय सॉफ़्टवेयर के साथ एकीकरण
ओपन सोर्स MonkeyOCR लाइब्रेरी को एंटरप्राइज़ दस्तावेज़ वर्कफ़्लो में भी प्लग किया जा सकता है, जैसे ERP या CRM सिस्टम में डेटा एंट्री को स्वचालित करना। सॉफ़्टवेयर डेवलपर्स MonkeyOCR को बैकग्राउंड में चलाकर उपयोगकर्ताओं द्वारा अपलोड किए गए स्कैन किए गए PDF या इमेज‑आधारित दस्तावेज़ों को स्कैन कर सकते हैं, और स्वचालित रूप से संरचित जानकारी निकाल सकते हैं। config.yaml के साथ MonkeyOCR को कॉन्फ़िगर करके, टीमें विभिन्न डिप्लॉयमेंट्स में स्थिरता बनाए रख सकती हैं।
स्वचालित फ़ॉर्म रीडर बनाएं
MonkeyOCR के टेक्स्ट डिटेक्शन को पोज़िशनल डेटा (बाउंडिंग बॉक्स) के साथ मिलाकर, डेवलपर्स बुद्धिमान फ़ॉर्म रीडर डिज़ाइन कर सकते हैं जो फ़ील्ड (जैसे “नाम”, “तारीख”, “राशि”) को पहचानते हैं और संबंधित डेटा निकालते हैं। यह कर‑दस्तावेज़, मेडिकल फ़ॉर्म या सर्वेक्षणों के लिए आदर्श है।