ফ্রি পাইথন লাইব্রেরির মাধ্যমে পিডিএফ থেকে তথ্য বের করুন

ফ্রি পাইথন এপিআই যা ডেভেলপারদের পিডিএফ ডকুমেন্ট থেকে তথ্য বের করতে এবং পিডিএফকে অন্যান্য ফরম্যাটে রূপান্তর করতে এবং স্বয়ংক্রিয় লেআউট বিশ্লেষণ করতে সক্ষম করে।

PDFMiner হল একটি ওপেন সোর্স যা অন্য কোন নির্ভরতা ছাড়াই পিডিএফ ফাইল প্রসেস করার জন্য পাইথন লাইব্রেরি ব্যবহার করা খুবই সহজ। PDFMine.six মূল PDFMiner লাইব্রেরির কমিউনিটি রক্ষণাবেক্ষণ করা কাঁটা। লাইব্রেরি পিডিএফ ডকুমেন্ট থেকে তথ্য বের করার জন্য খুব শক্তিশালী বৈশিষ্ট্য প্রদান করেছে। এটি নন-প্রোগ্রামারদের জন্য একটি কমান্ড ইউটিলিটি এবং প্রোগ্রামারদের জন্য একটি API ইন্টারফেস প্রদান করে। একটি শক্তিশালী পিডিএফ কনভার্টারও লাইব্রেরির অংশ যা ব্যবহারকারীদের পিডিএফ ফাইলগুলিকে এইচটিএমএল-এর মতো অন্যান্য টেক্সট ফরম্যাটে রূপান্তর করতে সাহায্য করে।

PDFMiner হল একটি বিশুদ্ধ পাইথন লাইব্রেরি যা সহজেই একটি PDF ফাইল থেকে সমস্ত পাঠ্য বের করতে পারে যা প্রোগ্রামে রেন্ডার করা হয়। দুর্দান্ত ক্ষমতা হল যে এটি প্রতিটি পাঠ্য বিভাগের জন্য সংশ্লিষ্ট অবস্থান, ফন্টের নাম এবং আকার এবং লেখার দিক (অনুভূমিক বা উল্লম্ব) বের করে। এটি PDF-1.7 স্পেসিফিকেশন সমর্থন করে এবং পাসওয়ার্ড-সুরক্ষিত PDF নথি নিষ্কাশনের জন্য সমর্থন প্রদান করে। লাইব্রেরিতে আরও বেশ কিছু গুরুত্বপূর্ণ বৈশিষ্ট্য রয়েছে, যেমন PDF নথি পার্সিং, বিশ্লেষণ এবং রূপান্তর করা, HTML বা hOCR হিসাবে বিষয়বস্তু নিষ্কাশন করা, উল্লম্ব লেখার স্ক্রিপ্টের জন্য সমর্থন, RC4 এবং AES এনক্রিপশন সমর্থন, বিষয়বস্তুর সারণী নিষ্কাশন, ট্যাগ করা বিষয়বস্তু নিষ্কাশন, স্বয়ংক্রিয় বিন্যাস। বিশ্লেষণ এবং তাই।

Previous Next

PDFMiner দিয়ে শুরু করা

PDFMiner-এর জন্য Python 3.6 এবং উচ্চতর সংস্করণ প্রয়োজন। আপনি পিপ ব্যবহার করে PDFMiner ইনস্টল করতে পারেন। এটি ইনস্টল করতে নিম্নলিখিত কমান্ড ব্যবহার করুন.

পিপ এর মাধ্যমে PDFMiner ইনস্টল করুন

 pip install pdfminer 

এছাড়াও আপনি GitHub সংগ্রহস্থল থেকে সংকলিত শেয়ার্ড লাইব্রেরি ডাউনলোড করতে পারেন এবং এটি ইনস্টল করতে পারেন৷

Python এর মাধ্যমে PDF ফাইল থেকে টেক্সট বের করুন

ওপেন সোর্স Pdfminer.six লাইব্রেরি সফ্টওয়্যার ডেভেলপারদের পাইথন কোডের মাত্র কয়েক লাইন সহ একটি PDF ফাইল থেকে পাঠ্য বের করার ক্ষমতা দেয়। লাইব্রেরি পাঠ্য ডেটা পাওয়ার এবং বিশ্লেষণ করার উপর ফোকাস করে এবং এর পরে সরাসরি PDF এর সোর্স কোড থেকে একটি পৃষ্ঠা থেকে পাঠ্য বের করে। লাইব্রেরি ডেভেলপারদের একটি PDF ফাইল থেকে ছবি (JPG, JBIG2, Bitmaps) বের করার অনুমতি দেয়। প্রতিটি স্বতন্ত্র অক্ষরের ফন্টনাম বা আকার বের করাও সম্ভব। নিম্নলিখিত উদাহরণগুলি দেখায় যে কীভাবে একটি পিডিএফ ফাইল থেকে পাঠ্যটি বের করা যায় এবং এটি স্ক্রিনে প্রিন্ট করা যায়।

পাইথনের মাধ্যমে পিডিএফ ডকুমেন্ট খুলুন এবং ম্যানিপুলেট করুন

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Python API এর মাধ্যমে PDF ফাইলকে hOCR-তে রূপান্তর করুন

hOCR হল অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) থেকে প্রাপ্ত ফর্ম্যাট করা টেক্সটের জন্য ডেটা উপস্থাপনের একটি উন্মুক্ত মান। বিনামূল্যের Pdfminer.six লাইব্রেরিগুলি সফ্টওয়্যার ডেভেলপারদের পাইথন কোডের মাত্র কয়েকটি লাইনের সাথে পিডিএফ ফাইলগুলিকে hOCR ফরম্যাটে রূপান্তর করতে দেয়। লাইব্রেরিটি পরিচালনা করা খুব সহজ এবং এটি যে PDF গুলি রয়েছে তা থেকে স্পষ্ট পাঠ্য তথ্য বের করতে পারে এবং এটি একটি মৌলিক hOCR উপস্থাপনা তৈরি করতে ব্যবহার করে৷

Python এর মাধ্যমে PDF ফাইলকে টেক্সটে রূপান্তর করুন

লাইব্রেরিতে একটি সমৃদ্ধ বৈশিষ্ট্য সেট এবং ক্ষমতা রয়েছে যা আপনাকে মৌলিক PDF প্রক্রিয়াকরণের বাইরে প্রসারিত করতে দেয়। ওপেন সোর্স Pdfminer.six লাইব্রেরি আসুন পাইথন ডেভেলপাররা পিডিএফ ডকুমেন্টকে কয়েকটি সাধারণ কমান্ডের মাধ্যমে টেক্সটে রূপান্তর করে। প্রথমে আপনাকে PDF ফাইলের পাশাপাশি টেক্সট ফাইলের পথ প্রদান করতে হবে। যদি নথিটি পাসওয়ার্ড সুরক্ষিত থাকে তবে আপনাকে এর পাসওয়ার্ডও দিতে হবে। নিম্নলিখিত কোড উদাহরণ লক্ষ্য অর্জন করতে ব্যবহার করা যেতে পারে, এটি সহজভাবে একটি PDF এ স্ট্রিং প্রদান করবে, তার ফাইলের নাম দেওয়া হলে, আপনি সহজেই এটি একটি ফাইলে সংরক্ষণ করতে পারেন।

Python API এর মাধ্যমে PDF ফাইলকে টেক্সট ফরম্যাটে রূপান্তর করুন

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 বাংলা