मुफ्त पायथन लाइब्रेरी के माध्यम से पीडीएफ़ से जानकारी निकालें
मुफ्त पायथन एपीआई जो डेवलपर्स को पीडीएफ दस्तावेजों से जानकारी निकालने और पीडीएफ को अन्य प्रारूपों में बदलने और स्वचालित लेआउट विश्लेषण करने में सक्षम बनाता है।
PDFMiner एक खुला स्रोत है जो बिना किसी अन्य निर्भरता के PDF फ़ाइलों को संसाधित करने के लिए Python लाइब्रेरी का उपयोग करना बहुत आसान है। PDFMine.six मूल PDFMiner लाइब्रेरी का समुदाय-अनुरक्षित फ़ोर्क। पुस्तकालय ने पीडीएफ दस्तावेजों से जानकारी निकालने के लिए बहुत ही शक्तिशाली सुविधाएँ प्रदान की हैं। यह गैर-प्रोग्रामर के लिए एक कमांड उपयोगिता और प्रोग्रामर के लिए एक एपीआई इंटरफ़ेस प्रदान करता है। एक शक्तिशाली पीडीएफ कनवर्टर भी लाइब्रेरी का हिस्सा है जो उपयोगकर्ताओं को पीडीएफ फाइलों को एचटीएमएल जैसे अन्य टेक्स्ट प्रारूपों में बदलने में मदद करता है।
PDFMiner एक शुद्ध पायथन लाइब्रेरी है जो आसानी से एक पीडीएफ फाइल से सभी टेक्स्ट निकाल सकती है जो प्रोग्रामेटिक रूप से रेंडर किए गए हैं। महान क्षमता यह है कि यह प्रत्येक पाठ खंड के लिए संबंधित स्थान, फ़ॉन्ट नाम और आकार, और लेखन दिशा (क्षैतिज या लंबवत) भी निकालता है। यह PDF-1.7 विनिर्देशन का समर्थन करता है और पासवर्ड से सुरक्षित PDF दस्तावेज़ निष्कर्षण के लिए समर्थन प्रदान करता है। पुस्तकालय में कई अन्य महत्वपूर्ण विशेषताएं शामिल हैं, जैसे कि पीडीएफ दस्तावेजों को पार्स करना, विश्लेषण करना और परिवर्तित करना, HTML या hOCR के रूप में सामग्री निकालना, लंबवत लेखन स्क्रिप्ट के लिए समर्थन, RC4 और AES एन्क्रिप्शन समर्थन, सामग्री की तालिका निकालना, टैग की गई सामग्री निष्कर्षण, स्वचालित लेआउट विश्लेषण और इतने पर।
PDFMiner के साथ प्रारंभ करना
PDFMiner को Python 3.6 और उच्चतर की आवश्यकता है। आप पीआईपी का उपयोग कर पीडीएफमाइनर स्थापित कर सकते हैं। इसे स्थापित करने के लिए कृपया निम्न आदेश का उपयोग करें।
पिप के माध्यम से PDFMiner स्थापित करें
pip install pdfminer
आप GitHub रिपॉजिटरी से संकलित साझा लाइब्रेरी को डाउनलोड भी कर सकते हैं और इसे इंस्टॉल कर सकते हैं।
पायथन के माध्यम से पीडीएफ फाइल से टेक्स्ट निकालें
ओपन सोर्स Pdfminer.six लाइब्रेरी सॉफ्टवेयर डेवलपर्स को पायथन कोड की कुछ पंक्तियों के साथ एक पीडीएफ फाइल से टेक्स्ट निकालने की क्षमता देती है। पुस्तकालय टेक्स्ट डेटा प्राप्त करने और उसका विश्लेषण करने पर ध्यान केंद्रित करता है और उसके बाद पीडीएफ के स्रोत कोड से सीधे पृष्ठ से टेक्स्ट निकालता है। पुस्तकालय डेवलपर्स को पीडीएफ फाइल से छवियों (जेपीजी, जेबीजी2, बिटमैप्स) को निकालने की भी अनुमति देता है। प्रत्येक व्यक्तिगत वर्ण का फ़ॉन्टनाम या आकार निकालना भी संभव है। निम्नलिखित उदाहरण बताते हैं कि पीडीएफ फाइल से टेक्स्ट कैसे निकाला जाए और इसे स्क्रीन पर कैसे प्रिंट किया जाए।
पायथन के माध्यम से पीडीएफ दस्तावेज़ खोलें और हेरफेर करें
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
पायथन एपीआई के माध्यम से पीडीएफ फाइल को एचओसीआर में बदलें
hOCR ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) से प्राप्त स्वरूपित पाठ के लिए डेटा प्रतिनिधित्व का एक खुला मानक है। मुफ़्त Pdfminer.six लाइब्रेरी सॉफ़्टवेयर डेवलपर्स को Python कोड की कुछ पंक्तियों के साथ PDF फ़ाइलों को hOCR प्रारूप में बदलने की अनुमति देती है। पुस्तकालय को संभालना बहुत आसान है और उन पीडीएफ से स्पष्ट पाठ्य जानकारी निकाल सकता है जिनके पास यह है और एक बुनियादी एचओसीआर प्रतिनिधित्व उत्पन्न करने के लिए इसका उपयोग करता है।
पायथन के माध्यम से पीडीएफ फाइल को टेक्स्ट में बदलें
लाइब्रेरी में एक समृद्ध फीचर सेट और क्षमताएं शामिल हैं जो आपको मूल पीडीएफ प्रोसेसिंग से आगे बढ़ने की अनुमति देती हैं। ओपन सोर्स Pdfminer.six लाइब्रेरी से पायथन डेवलपर्स पीडीएफ दस्तावेज़ों को केवल कुछ सरल कमांड के साथ टेक्स्ट में कनवर्ट करते हैं। सबसे पहले आपको पीडीएफ फाइलों के साथ-साथ टेक्स्ट फाइल के लिए पथ प्रदान करने की आवश्यकता है। यदि दस्तावेज़ पासवर्ड से सुरक्षित है, तो आपको उसका पासवर्ड भी देना होगा। लक्ष्य प्राप्त करने के लिए निम्न कोड उदाहरण का उपयोग किया जा सकता है, यह केवल पीडीएफ में स्ट्रिंग लौटाएगा, इसका फ़ाइल नाम दिया गया है, आप इसे आसानी से फ़ाइल में सहेज सकते हैं।
पायथन एपीआई के माध्यम से पीडीएफ फाइल को टेक्स्ट फॉर्मेट में बदलें
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text