स्मार्ट OCR ऐप्स बनाने के लिए ओपन सोर्स पायथन API

नि:शुल्क पायथन OCR API जो छवियों से टेक्स्ट का पता लगाता और पहचानता है, जिसमें प्राकृतिक दृश्य, फ़ॉर्म और पायथन ऐप्स में स्कैन किए गए दस्तावेज़ शामिल हैं।

MonkeyOCR क्या है?

MonkeyOCR एक उन्नत, एंड-टू-एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग पर आधारित है, उन सॉफ़्टवेयर डेवलपर्स के लिए जो एक शक्तिशाली और लचीला समाधान चाहते हैं। युलियांग लियू द्वारा विकसित, यह लाइब्रेरी विविध स्रोतों से, जैसे प्राकृतिक दृश्य, फ़ॉर्म और स्कैन किए गए दस्तावेज़, टेक्स्ट का सटीक पता लगाने और पहचानने में सक्षम बनाती है। इसका मॉड्यूलर और स्केलेबल आर्किटेक्चर अत्याधुनिक डीप लर्निंग तकनीकों को एक मजबूत इन्फ़रेंस पाइपलाइन के साथ मिलाता है, जिससे यह वास्तविक दुनिया के टेक्स्ट पहचान कार्यों के लिए अत्यंत उपयुक्त बन जाता है। व्यावहारिक अनुप्रयोगों में इनवॉइस स्कैनिंग, आईडी कार्ड रीडिंग, साइनबोर्ड से टेक्स्ट निकालना और बहुभाषी OCR या PDF‑से‑डेटा पाइपलाइन बनाना शामिल है।

अधिकतम लचीलापन प्रदान करने के लिए डिज़ाइन किया गया, MonkeyOCR सॉफ़्टवेयर इंजीनियरों को व्यावसायिक OCR इंजन से स्वतंत्र रूप से बुद्धिमान दस्तावेज़ प्रोसेसिंग सिस्टम बनाने की शक्ति देता है। इसमें कई उन्नत सुविधाएँ हैं, जैसे पूरी तरह मॉड्यूलर OCR पाइपलाइन, सरल YAML फ़ाइल कॉन्फ़िगरेशन, और कुशल बैच इन्फ़रेंस समर्थन। सिस्टम सटीक टेक्स्ट बॉक्स आउटपुट को कॉऑर्डिनेट्स के साथ प्रदान करता है, DBNet++ जैसे आधुनिक मॉडल का उपयोग करके डिटेक्शन और CRNN के साथ रिकग्निशन करता है, सभी को एक कॉन्फ़िगरेबल प्री‑और‑पोस्ट‑प्रोसेसिंग फ्रेमवर्क में सम्मिलित किया गया है। मॉड्यूलर डिज़ाइन, समकालीन मॉडलों के समर्थन और आसान कॉन्फ़िगरेशन का यह संयोजन MonkeyOCR को एंटरप्राइज़ दस्तावेज़ ऑटोमेशन से लेकर मोबाइल‑आधारित सीन टेक्स्ट रिकग्निशन तक, वास्तविक‑विश्व अनुप्रयोगों के निर्माण के लिए आदर्श बनाता है।

एक नज़र में

MonkeyOCR सुविधाओं का एक अवलोकन।

Features Overview

OCR ऐप्स बनाएं
OCR क्षमताएँ जोड़ें
छवि टेक्स्ट पहचानें
टेक्स्ट की छवियों को परिवर्तित करें
पहचाने गए फ़ॉन्ट टेक्स्ट
अन्य भाषाएँ
OCR ऐप्स बनाएं
ब्राउज़र में सहेजें
टेक्स्ट निकालें
मल्टी-थ्रेडिंग समर्थन

MonkeyOCR

MonkeyOCR नीचे सूचीबद्ध लोकप्रिय इमेज फ़ाइल फ़ॉर्मेट का समर्थन करता है।

रीडर

PNG, JPEG, BMP, TIFF, TGA, DICOM

राइटर

PNG, JPEG, BMP, TIFF

MonkeyOCR

प्लेटफ़ॉर्म स्वतंत्रता

MonkeyOCR Python 2.7 और उसके ऊपर के संस्करणों के साथ काम कर सकता है।

Python 2.7 और ऊपर।

MonkeyOCR

MonkeyOCR के साथ शुरूआत

MonkeyOCR स्थापित करने का अनुशंसित तरीका pip का उपयोग करना है। सुगम स्थापना के लिए कृपया नीचे दिया गया कमांड उपयोग करें।

pip के माध्यम से MonkeyOCR स्थापित करें

 pip install MonkeyOCR

GitHub के माध्यम से MonkeyOCR स्थापित करें

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

आप इसे मैन्युअली भी स्थापित कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉज़िटरी से डाउनलोड करें।

Python के माध्यम से रसीद छवि से टेक्स्ट निकालना

ओपन सोर्स MonkeyOCR एक एंड‑टू‑एंड ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम है जो डीप लर्निंग तकनीकों पर आधारित है। ऐसे सॉफ़्टवेयर डेवलपर्स जो दस्तावेज़, आईडी, रसीद या लाइसेंस प्लेट स्कैन करने वाले ऐप बनाते हैं, MonkeyOCR को सीधे अपने बैक‑एंड पाइपलाइन में प्लग कर सकते हैं। इसके मॉड्यूलर डिज़ाइन के कारण आप केवल डिटेक्शन मॉडल या उसे रिकग्निशन के साथ मिलाकर छवियों से संरचित टेक्स्ट निकाल सकते हैं। नीचे एक सरल उदाहरण दिया गया है जो Python API का उपयोग करके रसीद छवि से टेक्स्ट निकालता है।

Python API के माध्यम से रसीद छवि से टेक्स्ट कैसे निकालें?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

विशिष्ट उपयोग मामलों के लिए कस्टम OCR पाइपलाइन

ओपन सोर्स MonkeyOCR लाइब्रेरी की सबसे बड़ी ताकत इसका मॉड्यूलर आर्किटेक्चर है। सॉफ़्टवेयर डेवलपर्स अपनी एप्लिकेशन आवश्यकताओं के आधार पर डिटेक्शन, रिकग्निशन और क्लासिफिकेशन मॉडल जैसे घटकों को मिलाकर उपयोग कर सकते हैं। उदाहरण के तौर पर, एक दस्तावेज़ स्कैनिंग ऐप हल्के मॉडल जैसे DBNet को डिटेक्शन के लिए और CRNN को रिकग्निशन के लिए उपयोग कर सकता है, जिससे गति और सटीकता दोनों में सुधार होता है।

Python API के माध्यम से कस्टम OCR पाइपलाइन?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

व्यवसाय सॉफ़्टवेयर के साथ एकीकरण

ओपन सोर्स MonkeyOCR लाइब्रेरी को एंटरप्राइज़ दस्तावेज़ वर्कफ़्लो में भी प्लग किया जा सकता है, जैसे ERP या CRM सिस्टम में डेटा एंट्री को स्वचालित करना। सॉफ़्टवेयर डेवलपर्स MonkeyOCR को बैकग्राउंड में चलाकर उपयोगकर्ताओं द्वारा अपलोड किए गए स्कैन किए गए PDF या इमेज‑आधारित दस्तावेज़ों को स्कैन कर सकते हैं, और स्वचालित रूप से संरचित जानकारी निकाल सकते हैं। config.yaml के साथ MonkeyOCR को कॉन्फ़िगर करके, टीमें विभिन्न डिप्लॉयमेंट्स में स्थिरता बनाए रख सकती हैं।

स्वचालित फ़ॉर्म रीडर बनाएं

MonkeyOCR के टेक्स्ट डिटेक्शन को पोज़िशनल डेटा (बाउंडिंग बॉक्स) के साथ मिलाकर, डेवलपर्स बुद्धिमान फ़ॉर्म रीडर डिज़ाइन कर सकते हैं जो फ़ील्ड (जैसे “नाम”, “तारीख”, “राशि”) को पहचानते हैं और संबंधित डेटा निकालते हैं। यह कर‑दस्तावेज़, मेडिकल फ़ॉर्म या सर्वेक्षणों के लिए आदर्श है।