छवि पीडीएफ को खोजने योग्य बनाने के लिए ओपन सोर्स पायथन ओसीआर एपीआई
ओसीआर प्रक्रिया को स्वचालित करने के लिए एक शक्तिशाली मुफ्त पायथन ओसीआर एपीआई और स्कैन की गई छवि पीडीएफ को आसानी से पूरी तरह से खोजने योग्य दस्तावेजों में परिवर्तित करने की सुविधा प्रदान करता है।
ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) तकनीक ने दस्तावेजों को संभालने और संसाधित करने के तरीके में क्रांति ला दी है, जिससे हम मूल्यवान जानकारी कुशलतापूर्वक निकालने में सक्षम हो गए हैं। उपलब्ध कई OCR टूल के बीच, OCRmyPDF एक बहुमुखी और शक्तिशाली पायथन लाइब्रेरी के रूप में सामने आता है जो असाधारण सटीकता के साथ उपयोग में आसानी को जोड़ती है। OCRmyPDF एक ओपन-सोर्स कमांड-लाइन टूल और पायथन लाइब्रेरी है जिसे विशेष रूप से मौजूदा पीडीएफ फाइलों में OCR जोड़ने के लिए डिज़ाइन किया गया है। लाइब्रेरी पीडीएफ फ़ाइल के प्रत्येक पृष्ठ का विश्लेषण करती है ताकि सामग्री खोए बिना उस पृष्ठ पर सभी जानकारी कैप्चर करने के लिए आवश्यक रंग स्थान और रिज़ॉल्यूशन (डीपीआई) निर्धारित किया जा सके।
ओपन सोर्स OCRmyPDF लाइब्रेरी इनपुट प्रारूपों की एक विस्तृत श्रृंखला का समर्थन करती है, जिसमें स्कैन की गई छवियां, मौजूदा पीडीएफ और यहां तक कि डीजेवीयू फाइलें भी शामिल हैं। यह "इमेज प्लस टेक्स्ट" के आधार पर संचालित होता है और इसका उद्देश्य मूल दस्तावेज़ की संरचना और स्वरूपण को संरक्षित करके उच्च गुणवत्ता वाला आउटपुट तैयार करना है। उच्चतम संभव गुणवत्ता बनाए रखते हुए फ़ाइल का आकार कम करने के लिए लाइब्रेरी पीडीएफ अनुकूलन तकनीकों का उपयोग करती है। संपीड़न और डाउन-सैंपलिंग लागू करके, यह सुनिश्चित करता है कि परिणामी ओसीआर-सक्षम पीडीएफ फाइलें स्टोर करने में कुशल और लोड करने में तेज हैं।
OCRmyPDF मजबूत Tesseract OCR इंजन का उपयोग करता है, जो 100 से अधिक भाषाओं का समर्थन करता है। इसके उन्नत एल्गोरिदम निम्न-गुणवत्ता या विकृत छवियों से भी पाठ की सटीक पहचान सुनिश्चित करते हैं। लाइब्रेरी ने नियमित पीडीएफ से आसानी से खोजने योग्य पीडीएफ/ए फ़ाइल तैयार करने के लिए सहायता प्रदान की है। यह डेस्क्यू जैसे कुछ इमेज प्रोसेसिंग विकल्प भी प्रदान करता है, जो फाइलों की उपस्थिति और ओसीआर की गुणवत्ता में सुधार करता है। जब इनका उपयोग किया जाता है, तो इसके बजाय OCR परत को संसाधित छवि पर ग्राफ्ट किया जाता है। कई भाषाओं के लिए समर्थन, पीडीएफ अनुकूलन, टेक्स्ट परत नियंत्रण और स्वचालित प्रसंस्करण सहित इसका व्यापक फीचर सेट, इसे व्यवसायों, शोधकर्ताओं, पुरालेखपालों और बड़ी मात्रा में स्कैन किए गए दस्तावेज़ों से निपटने वाले किसी भी व्यक्ति के लिए एक मूल्यवान उपकरण बनाता है।
OCRmyPDF के साथ शुरुआत करना
OCRmyPDF को स्थापित करने का अनुशंसित तरीका पाइप का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।
पिप के माध्यम से OCRmyPDF इंस्टॉल करें
pip install ocrmypdf
आप इसे मैन्युअल रूप से भी इंस्टॉल कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपोजिटरी
से डाउनलोड करें।पायथन एपीआई का उपयोग करके पीडीएफ अनुकूलन
ओपन सोर्स OCRmyPDF लाइब्रेरी ने पायथन अनुप्रयोगों के अंदर पीडीएफ दस्तावेज़ों के आकार और गुणवत्ता को प्रबंधित करने के लिए एक बहुत ही उपयोगी सुविधाओं का समर्थन प्रदान किया है। उच्चतम संभव गुणवत्ता बनाए रखते हुए फ़ाइल का आकार कम करने के लिए लाइब्रेरी पीडीएफ अनुकूलन तकनीकों का उपयोग करती है। संपीड़न और डाउन-सैंपलिंग लागू करके, यह सुनिश्चित करता है कि परिणामी ओसीआर-सक्षम पीडीएफ फाइलें स्टोर करने में कुशल और लोड करने में तेज हैं। OCRmyPDF कई अनुकूलन विकल्प प्रदान करता है जिन्हें आप अपनी आवश्यकताओं के आधार पर अनुकूलित कर सकते हैं। आमतौर पर उपयोग किए जाने वाले कुछ विकल्पों में अस्थायी फ़ाइलों को हटाना, JBIG2 संपीड़न लागू करना, OCR जोड़ना छोड़ना, फ़ाइल आकार में कमी को अधिकतम करने के लिए दोषरहित संपीड़न को अक्षम करना आदि शामिल हैं।
पायथन एपीआई का उपयोग करके पीडीएफ फाइलों को कैसे अनुकूलित करें?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
पायथन एपीआई के माध्यम से पीडीएफ टेक्स्ट लेयर इंटीग्रेशन
ओसीआरमाईपीडीएफ, एक ओपन-सोर्स लाइब्रेरी, पीडीएफ फाइलों में टेक्स्ट परतों को एकीकृत करने, दस्तावेज़ पहुंच और खोज-क्षमता को बढ़ाने के लिए एक शक्तिशाली समाधान प्रदान करती है। लाइब्रेरी मूल लेआउट के संरक्षण को सुनिश्चित करते हुए सीधे पीडीएफ दस्तावेज़ पर ओसीआर-जनरेटेड टेक्स्ट वाली एक टेक्स्ट परत जोड़ती है। यह सुविधा पूर्ण-पाठ खोज, कॉपी-पेस्ट करने और पाठ निष्कर्षण को सक्षम बनाती है। पीडीएफ दस्तावेजों के साथ काम करते समय, फ़ाइल के भीतर एक टेक्स्ट परत को एकीकृत करना अत्यधिक फायदेमंद होता है। टेक्स्ट परत में मान्यता प्राप्त ओसीआर-जनरेटेड टेक्स्ट होता है, जो पीडीएफ को खोजने योग्य बनाता है और टेक्स्ट की आसान प्रतिलिपि बनाने और निकालने की अनुमति देता है। यह एकीकरण टेक्स्ट-आधारित संचालन को सक्षम करते हुए दस्तावेज़ की उपयोगिता और दक्षता को बढ़ाते हुए मूल दस्तावेज़ लेआउट को संरक्षित करता है।