ओसीआर क्षमताओं को एकीकृत करने के लिए ओपन सोर्स पायथन एपीआई
ओपन सोर्स पायथन लाइब्रेरी जो सॉफ्टवेयर डेवलपर्स को अपने अनुप्रयोगों में ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) क्षमताओं को आसानी से एकीकृत करने की अनुमति देती है।
पैडलओसीआर एक शक्तिशाली ओपन सोर्स पायथन लाइब्रेरी है जो सॉफ्टवेयर डेवलपर्स को अपने पायथन अनुप्रयोगों में ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) क्षमताओं को आसानी से एकीकृत करने में सक्षम बनाता है। यह पैडलपैडल, एक ओपन-सोर्स डीप लर्निंग प्लेटफॉर्म के शीर्ष पर बनाया गया है, और उच्च सटीकता और प्रदर्शन प्राप्त करने के लिए अत्याधुनिक डीप लर्निंग मॉडल का उपयोग करता है। पैडलओसीआर एक उच्च-स्तरीय एपीआई प्रदान करके ओसीआर प्रक्रिया को सरल बनाता है जो कई निम्न-स्तरीय विवरणों को दूर कर देता है, जिससे डेवलपर्स के लिए अपने अनुप्रयोगों में ओसीआर क्षमताओं को जोड़ना आसान हो जाता है।
पैडलओसीआर ने विभिन्न भाषाओं और लिपियों के लिए पूर्ण समर्थन प्रदान किया है। यह वर्तमान में अरबी, चीनी, अंग्रेजी, फ्रेंच, जर्मन, जापानी, कोरियाई, रूसी, स्पेनिश और कई अन्य सहित 80+ विभिन्न भाषाओं का समर्थन करता है। यह इसे उन डेवलपर्स के लिए एक मूल्यवान टूल बनाता है जिन्हें बहुभाषी सामग्री के साथ काम करने की आवश्यकता होती है। अपनी शक्तिशाली OCR क्षमताओं के अलावा, लाइब्रेरी में छवियों और पाठ के साथ काम करने के लिए कई उपयोगी उपयोगिताएँ भी शामिल हैं। उदाहरण के लिए, इसमें इमेज प्रीप्रोसेसिंग के लिए टूल शामिल हैं, जैसे डेस्क्यूइंग और बाइनराइजेशन, साथ ही ओसीआर आउटपुट की सटीकता में सुधार के लिए पोस्ट-प्रोसेसिंग टूल भी शामिल हैं।
पैडलओसीआर कई अलग-अलग ओसीआर मॉडल प्रदान करता है, प्रत्येक को अलग-अलग उपयोग के मामलों के लिए अनुकूलित किया गया है। उदाहरण के लिए, टेक्स्ट डिटेक्शन मॉडल का उपयोग किसी छवि से टेक्स्ट क्षेत्रों का पता लगाने और निकालने के लिए किया जाता है, जबकि टेक्स्ट रिकग्निशन मॉडल का उपयोग उन क्षेत्रों के भीतर वास्तविक टेक्स्ट को पहचानने के लिए किया जाता है। इसमें एक मॉडल एन्सेम्बल सुविधा भी है जो डेवलपर्स को और भी अधिक सटीकता प्राप्त करने के लिए कई मॉडलों को संयोजित करने की अनुमति देती है। कुल मिलाकर, पैडलओसीआर आपके पायथन अनुप्रयोगों में ओसीआर क्षमताओं को जोड़ने के लिए एक शक्तिशाली और उपयोग में आसान लाइब्रेरी है। भाषाओं और लिपियों की एक विस्तृत श्रृंखला के साथ-साथ इसके अनुकूलन योग्य मॉडल और पोस्टप्रोसेसिंग टूल के लिए इसका समर्थन, इसे OCR के साथ काम करने वाले डेवलपर्स के लिए एक मूल्यवान टूल बनाता है।
पैडलओसीआर के साथ शुरुआत करना
पैडलओसीआर को स्थापित करने का अनुशंसित तरीका पाइप का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें
पाइप के माध्यम से पैडलओसीआर स्थापित करें
पिप के माध्यम से पैडलओसीआर स्थापित करें
pip install paddleocr
आप इसे मैन्युअल रूप से भी इंस्टॉल कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपोजिटरी
से डाउनलोड करें।
पैडलओसीआर एपीआई के माध्यम से छवि टेक्स्ट पहचान
छवि पाठ पहचान छवियों से पाठ निकालने की प्रक्रिया है। यह दस्तावेज़ स्कैनिंग, डिजिटलीकरण और ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) जैसे विभिन्न अनुप्रयोगों के लिए एक उपयोगी तकनीक है। ओपन-सोर्स ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) एपीआई अत्याधुनिक ओसीआर मॉडल का एक सेट प्रदान करता है जो स्कैन किए गए दस्तावेज़ों, स्क्रीनशॉट और तस्वीरों सहित विभिन्न छवियों से टेक्स्ट को पहचान सकता है। लाइब्रेरी छवि पाठ पहचान से संबंधित कई महत्वपूर्ण विशेषताओं का समर्थन करती है जैसे छवियों को लोड करना, ओसीआर मॉडल को आरंभ करना, छवि में पाठ क्षेत्र की पहचान करना, छवि से पाठ को पहचानना, परिणाम से पाठ निकालना और बहुत कुछ। निम्नलिखित उदाहरण दिखाता है कि पायथन अनुप्रयोगों के अंदर किसी छवि से टेक्स्ट को कैसे पहचाना जाए।
पायथन प्रोजेक्ट्स के अंदर इमेज टेक्स्ट रिकॉग्निशन निष्पादित करें
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
पायथन एपीआई का उपयोग करके ओसीआर दस्तावेज़ पहचान
दस्तावेज़ पहचान ओसीआर के लिए प्रमुख अनुसंधान क्षेत्रों में से एक रही है। दस्तावेज़ों का उपयोग हमारे जीवन में लगभग हर दिन होता है। जब सॉफ़्टवेयर डेवलपर किसी दस्तावेज़ पर OCR लागू करते हैं, तो यह महत्वपूर्ण जानकारी प्राप्त कर सकता है, फॉर्म फ़ील्ड पुनः प्राप्त कर सकता है, लेआउट का विश्लेषण कर सकता है, डिजिटल रूप से संग्रहीत कर सकता है और पुरानी पांडुलिपियों को पढ़ने के लिए भी। ओपन-सोर्स पैडलओसीआर लाइब्रेरी सॉफ्टवेयर डेवलपर्स को विभिन्न प्रकार के दस्तावेजों को लोड करने, ओसीआर संचालन करने और पायथन कोड का उपयोग करके टेक्स्ट को पहचानने और निकालने की अनुमति देती है। पाठ पहचान बहुत सटीक है और लाइब्रेरी आसानी से विशेष वर्णों और रिक्त स्थान का सटीक रूप से पता लगा सकती है।
पायथन एपीआई का उपयोग करके ओसीआर दस्तावेज़ पहचान निष्पादित करें
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
पायथन ऐप्स के अंदर टेबल रिकग्निशन सपोर्ट
ओपन सोर्स पैडलओसीआर लाइब्रेरी सॉफ्टवेयर डेवलपर्स को उनके पायथन अनुप्रयोगों के अंदर टेबल के डेटा को पहचानने में सक्षम बनाती है। तालिका पहचान में मुख्य रूप से तीन मॉडल शामिल हैं, सिंगल लाइन टेक्स्ट डिटेक्शन-डीबी, सिंगल लाइन टेक्स्ट रिकग्निशन-सीआरएनएन और टेबल संरचना के साथ-साथ सेल निर्देशांक भविष्यवाणी-एसएलएनेट। निम्नलिखित उदाहरण दिखाता है कि तालिका वाली छवि को कैसे पहचाना जाए। निम्नलिखित उदाहरण दिखाता है कि ड्रॉ_ओसीआर विधि का उपयोग कैसे करें जो छवि, बाउंडिंग बॉक्स, टेक्स्ट, स्कोर और फ़ॉन्ट फ़ाइल का पथ लेता है। यह बाउंडिंग बॉक्स और खोजे गए टेक्स्ट के साथ एक छवि लौटाता है। आप शो विधि का उपयोग करके छवि प्रदर्शित कर सकते हैं।
पायथन एपीआई के माध्यम से एक छवि लोड करें और उसके अंदर टेक्स्ट का पता लगाएं
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()