পাইথন লাইব্রেরির মাধ্যমে পিডিএফ-এর সাথে কাজ করার জন্য অ্যাপস ডেভেলপ করুন
ওপেন সোর্স পাইথন API PDF ফাইলের পৃষ্ঠাগুলিকে বিভক্ত করতে, মার্জ করতে, ক্রপ করতে এবং রূপান্তর করতে সক্ষম, পিডিএফ-এ কাস্টম ডেটা ও পাসওয়ার্ড যোগ করতে পারে।
PyPDF2 হল একটি ওপেন সোর্স বিশুদ্ধ পাইথন লাইব্রেরি যা পাইথন অ্যাপ্লিকেশনের ভিতরে পিডিএফ ফাইলগুলির সাথে কোনো বাহ্যিক নির্ভরতা ছাড়াই কাজ করার ক্ষমতা প্রদান করে। লাইব্রেরীতে একাধিক পিডিএফ ফাইল মার্জ করা, পিডিএফ ফাইলের বিষয়বস্তু বের করা, পিডিএফ ফাইলের পৃষ্ঠাগুলিকে একটি কোণে ঘোরানো, পিডিএফ পৃষ্ঠাগুলির স্কেলিং, পিডিএফ ফাইলগুলির পৃষ্ঠাগুলিকে রূপান্তরিত করা, পিডিএফ পৃষ্ঠাগুলি থেকে ছবি তোলা এবং আরো অনেক.
ওপেন সোর্স প্রোগ্রামিং লাইব্রেরি PyPDF2 ব্যবহার করা খুবই সহজ এবং সোর্স কোডটি ভালোভাবে নথিভুক্ত এবং বোঝা সহজ। লাইব্রেরি ডেভেলপারদের PDF ফাইলের মেটাডেটা পড়তে এবং বের করতে সক্ষম করে যেমন পৃষ্ঠার সংখ্যা, লেখক, স্রষ্টা, তৈরি এবং সর্বশেষ আপডেট করার সময় ইত্যাদি। লাইব্রেরিটি Python কোডের মাত্র কয়েক লাইনের সাথে PDF ফাইলগুলিকে এনক্রিপ্ট এবং ডিক্রিপ্ট করা সমর্থন করে।
.
PyPDF2 দিয়ে শুরু করা
PyPDF2 পাইথন স্ট্যান্ডার্ড লাইব্রেরির অংশ হিসাবে আসে না, তাই আপনাকে এটি নিজেই ইনস্টল করতে হবে। এটি করার জন্য পছন্দের উপায় হল পিপ ব্যবহার করা।
পিপের মাধ্যমে PyPDF2 ইনস্টল করুন
python -m pip install pypdf2
Python এর মাধ্যমে PDF থেকে টেক্সট বের করুন
PyPDF2 লাইব্রেরি Python এর মাধ্যমে PDF ফাইল থেকে প্রোগ্রাম্যাটিকভাবে পাঠ্য বের করার ক্ষমতা প্রদান করে। পিডিএফ ফাইল থেকে ডেটা পুনরুদ্ধার করা সহজ নয় কারণ পিডিএফ যেভাবে তথ্য সংরক্ষণ করে তা অর্জন করা কঠিন করে তোলে। PyPDF2 ডেভেলপারদের তথ্য পুনরুদ্ধার করার জন্য বিল্ট-ইন ফাংশন ব্যবহার করা সহজ করে তাদের কাজ সহজ করে তোলে। পৃষ্ঠার পাঠ্য বিষয়বস্তু পেতে তারা পৃষ্ঠা অবজেক্টে extractText() পদ্ধতি ব্যবহার করতে পারে।
Python-এর মাধ্যমে PDF থেকে টেক্সট বের করুন
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
পাইথনের মাধ্যমে পিডিএফ ফাইল পড়া
PyPDF2 লাইব্রেরি Python এর মাধ্যমে PDF ফাইল থেকে প্রোগ্রাম্যাটিকভাবে পাঠ্য বের করার ক্ষমতা প্রদান করে। পিডিএফ ফাইল থেকে ডেটা পুনরুদ্ধার করা সহজ নয় কারণ পিডিএফ যেভাবে তথ্য সংরক্ষণ করে তা অর্জন করা কঠিন করে তোলে। PyPDF2 ডেভেলপারদের তথ্য পুনরুদ্ধারের জন্য বিল্ট-ইন ফাংশনগুলি ব্যবহার করা সহজ প্রদান করে তাদের কাজগুলিকে সহজ করে তোলে। পৃষ্ঠার পাঠ্য বিষয়বস্তু পেতে তারা পৃষ্ঠা অবজেক্টে extractText() পদ্ধতি ব্যবহার করতে পারে।
পাইথনের মাধ্যমে পিডিএফ ফাইল পড়া
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
পিডিএফ ডকুমেন্ট একত্রিত বা বিভক্ত করুন
আপনি কি কখনও এমন পরিস্থিতিতে পড়েছেন যেখানে আপনাকে একটি একক নথিতে দুই বা ততোধিক PDF ফাইল মার্জ করতে হবে? সংস্থার প্রায়শই একাধিক পিডিএফ ফাইল একক নথিতে মার্জ করার প্রয়োজন হয়। PyPDF2 লাইব্রেরি Python কোডের মাত্র কয়েকটি লাইনের সাথে PDF ফাইলগুলিকে একত্রিত করার ক্ষমতা প্রদান করে। ডেভেলপাররাও তাদের চাহিদা অনুযায়ী বড় পিডিএফ ডকুমেন্টকে ছোট আকারে ভাগ করতে পারে। বিকাশকারীরা সহজেই একটি পিডিএফ বইয়ের একটি নির্দিষ্ট অংশ বের করতে পারে বা একাধিক পিডিএফে বিভক্ত করতে পারে
Python এর মাধ্যমে PDF ফাইল মার্জ করুন
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
PDF ফাইল থেকে মেটাডেটা বের করুন
PyPDF2 লাইব্রেরিতে কয়েকটি Python কমান্ড ব্যবহার করে PDF নথি থেকে মেটাডেটা বের করার কার্যকারিতা অন্তর্ভুক্ত করা হয়েছে। আপনি সহজেই লেখক, নির্মাতা অ্যাপ, পৃষ্ঠার সংখ্যা, নথির শিরোনাম এবং তৈরির তারিখ ইত্যাদি সম্পর্কে তথ্য পেতে পারেন। আপনি সহজেই PDF নথির মেটাডেটা বের করতে পারেন এবং আপনার প্রয়োজন অনুযায়ী এটি ব্যবহার করতে পারেন।
পাইথনের মাধ্যমে পিডিএফ থেকে মেটাডেটা বের করুন
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)