स्मार्ट OCR ऐप्स बनाने के लिए ओपन सोर्स पायथन API

नि:शुल्क पायथन OCR API जो छवियों से टेक्स्ट का पता लगाता और पहचानता है, जिसमें प्राकृतिक दृश्य, फ़ॉर्म और पायथन ऐप्स में स्कैन किए गए दस्तावेज़ शामिल हैं।

MonkeyOCR क्या है?

MonkeyOCR एक उन्नत, एंड-टू-एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग पर आधारित है, उन सॉफ़्टवेयर डेवलपर्स के लिए जो एक शक्तिशाली और लचीला समाधान चाहते हैं। युलियांग लियू द्वारा विकसित, यह लाइब्रेरी विविध स्रोतों से, जैसे प्राकृतिक दृश्य, फ़ॉर्म और स्कैन किए गए दस्तावेज़, टेक्स्ट का सटीक पता लगाने और पहचानने में सक्षम बनाती है। इसका मॉड्यूलर और स्केलेबल आर्किटेक्चर अत्याधुनिक डीप लर्निंग तकनीकों को एक मजबूत इन्फ़रेंस पाइपलाइन के साथ मिलाता है, जिससे यह वास्तविक दुनिया के टेक्स्ट पहचान कार्यों के लिए अत्यंत उपयुक्त बन जाता है। व्यावहारिक अनुप्रयोगों में इनवॉइस स्कैनिंग, आईडी कार्ड रीडिंग, साइनबोर्ड से टेक्स्ट निकालना और बहुभाषी OCR या PDF‑से‑डेटा पाइपलाइन बनाना शामिल है।

अधिकतम लचीलापन प्रदान करने के लिए डिज़ाइन किया गया, MonkeyOCR सॉफ़्टवेयर इंजीनियरों को व्यावसायिक OCR इंजन से स्वतंत्र रूप से बुद्धिमान दस्तावेज़ प्रोसेसिंग सिस्टम बनाने की शक्ति देता है। इसमें कई उन्नत सुविधाएँ हैं, जैसे पूरी तरह मॉड्यूलर OCR पाइपलाइन, सरल YAML फ़ाइल कॉन्फ़िगरेशन, और कुशल बैच इन्फ़रेंस समर्थन। सिस्टम सटीक टेक्स्ट बॉक्स आउटपुट को कॉऑर्डिनेट्स के साथ प्रदान करता है, DBNet++ जैसे आधुनिक मॉडल का उपयोग करके डिटेक्शन और CRNN के साथ रिकग्निशन करता है, सभी को एक कॉन्फ़िगरेबल प्री‑और‑पोस्ट‑प्रोसेसिंग फ्रेमवर्क में सम्मिलित किया गया है। मॉड्यूलर डिज़ाइन, समकालीन मॉडलों के समर्थन और आसान कॉन्फ़िगरेशन का यह संयोजन MonkeyOCR को एंटरप्राइज़ दस्तावेज़ ऑटोमेशन से लेकर मोबाइल‑आधारित सीन टेक्स्ट रिकग्निशन तक, वास्तविक‑विश्व अनुप्रयोगों के निर्माण के लिए आदर्श बनाता है।

Previous Next

MonkeyOCR के साथ शुरूआत

MonkeyOCR स्थापित करने का अनुशंसित तरीका pip का उपयोग करना है। सुगम स्थापना के लिए कृपया नीचे दिया गया कमांड उपयोग करें।

pip के माध्यम से MonkeyOCR स्थापित करें

 pip install MonkeyOCR 

GitHub के माध्यम से MonkeyOCR स्थापित करें

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git 

आप इसे मैन्युअली भी स्थापित कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉज़िटरी से डाउनलोड करें।

Python के माध्यम से रसीद छवि से टेक्स्ट निकालना

ओपन सोर्स MonkeyOCR एक एंड‑टू‑एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग तकनीकों पर आधारित है। ऐसे सॉफ़्टवेयर डेवलपर्स जो दस्तावेज़, आईडी, रसीद या लाइसेंस प्लेट स्कैन करने वाले ऐप बनाते हैं, MonkeyOCR को सीधे अपने बैक‑एंड पाइपलाइन में प्लग कर सकते हैं। इसके मॉड्यूलर डिज़ाइन के कारण आप केवल डिटेक्शन मॉडल या उसे रिकग्निशन के साथ मिलाकर छवियों से संरचित टेक्स्ट निकाल सकते हैं। नीचे एक सरल उदाहरण दिया गया है जो Python API का उपयोग करके रसीद छवि से टेक्स्ट निकालता है।

Python API के माध्यम से रसीद छवि से टेक्स्ट कैसे निकालें?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

विशिष्ट उपयोग मामलों के लिए कस्टम OCR पाइपलाइन

ओपन सोर्स MonkeyOCR लाइब्रेरी की सबसे बड़ी ताकत इसका मॉड्यूलर आर्किटेक्चर है। सॉफ़्टवेयर डेवलपर्स अपनी एप्लिकेशन आवश्यकताओं के आधार पर डिटेक्शन, रिकग्निशन और क्लासिफिकेशन मॉडल जैसे घटकों को मिलाकर उपयोग कर सकते हैं। उदाहरण के तौर पर, एक दस्तावेज़ स्कैनिंग ऐप हल्के मॉडल जैसे DBNet को डिटेक्शन के लिए और CRNN को रिकग्निशन के लिए उपयोग कर सकता है, जिससे गति और सटीकता दोनों में सुधार होता है।

Python API के माध्यम से कस्टम OCR पाइपलाइन?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

व्यवसाय सॉफ़्टवेयर के साथ एकीकरण

ओपन सोर्स MonkeyOCR लाइब्रेरी को एंटरप्राइज़ दस्तावेज़ वर्कफ़्लो में भी प्लग किया जा सकता है, जैसे ERP या CRM सिस्टम में डेटा एंट्री को स्वचालित करना। सॉफ़्टवेयर डेवलपर्स MonkeyOCR को बैकग्राउंड में चलाकर उपयोगकर्ताओं द्वारा अपलोड किए गए स्कैन किए गए PDF या इमेज‑आधारित दस्तावेज़ों को स्कैन कर सकते हैं, और स्वचालित रूप से संरचित जानकारी निकाल सकते हैं। config.yaml के साथ MonkeyOCR को कॉन्फ़िगर करके, टीमें विभिन्न डिप्लॉयमेंट्स में स्थिरता बनाए रख सकती हैं।

स्वचालित फ़ॉर्म रीडर बनाएं

MonkeyOCR के टेक्स्ट डिटेक्शन को पोज़िशनल डेटा (बाउंडिंग बॉक्स) के साथ मिलाकर, डेवलपर्स बुद्धिमान फ़ॉर्म रीडर डिज़ाइन कर सकते हैं जो फ़ील्ड (जैसे “नाम”, “तारीख”, “राशि”) को पहचानते हैं और संबंधित डेटा निकालते हैं। यह कर‑दस्तावेज़, मेडिकल फ़ॉर्म या सर्वेक्षणों के लिए आदर्श है।

 हिन्दी