برنامه هایی را برای کار با PDF از طریق کتابخانه پایتون توسعه دهید

API منبع باز Python قادر به تقسیم، ادغام، برش، و تبدیل صفحات فایل‌های PDF، افزودن داده‌ها و گذرواژه‌های سفارشی به PDF است.

PyPDF2 یک کتابخانه پایتون خالص منبع باز است که قابلیت کار با فایل های PDF در داخل برنامه های پایتون را بدون هیچ گونه وابستگی خارجی فراهم می کند. این کتابخانه شامل پشتیبانی از چندین ویژگی مهم PDF مانند ادغام چندین فایل PDF، استخراج محتوای فایل PDF، چرخش صفحات فایل PDF با زاویه، مقیاس بندی صفحات PDF، تبدیل صفحات فایل های PDF، استخراج تصاویر از صفحات PDF و خیلی بیشتر.

استفاده از کتابخانه برنامه نویسی منبع باز PyPDF2 بسیار آسان است و کد منبع به خوبی مستند شده و به راحتی قابل درک است. این کتابخانه توسعه دهندگان را قادر می سازد تا ابرداده های فایل های PDF مانند تعداد صفحات، نویسنده، سازنده، زمان ایجاد و آخرین به روز رسانی و غیره را بخوانند و استخراج کنند. این کتابخانه همچنین از رمزگذاری و رمزگشایی فایل های PDF تنها با چند خط کد پایتون پشتیبانی می کند.

.

Previous Next

شروع کار با PyPDF2

PyPDF2 به عنوان بخشی از کتابخانه استاندارد پایتون نیست، بنابراین باید خودتان آن را نصب کنید. روش ترجیحی برای انجام این کار استفاده از پیپ است.

PyPDF2 را از طریق پیپ نصب کنید

 python -m pip install pypdf2  

استخراج متن از PDF از طریق پایتون

کتابخانه PyPDF2 قابلیت استخراج برنامه‌ای متن از فایل‌های PDF را از طریق پایتون فراهم می‌کند. بازیابی داده ها از یک فایل PDF کار آسانی نیست زیرا نحوه ذخیره سازی اطلاعات PDF فقط دستیابی به آن را دشوار می کند. PyPDF2 با ارائه توابع داخلی برای بازیابی اطلاعات، کار توسعه دهندگان را آسان می کند. آنها می توانند از متد ()extractText در شی صفحه برای دریافت محتوای متنی صفحه استفاده کنند.

متن را از PDF از طریق پایتون استخراج کنید

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

خواندن فایل های PDF از طریق پایتون

کتابخانه PyPDF2 قابلیت استخراج برنامه‌نویسی متن از فایل‌های PDF را از طریق پایتون فراهم می‌کند. بازیابی داده ها از یک فایل PDF کار آسانی نیست زیرا نحوه ذخیره سازی اطلاعات PDF فقط دستیابی به آن را دشوار می کند. PyPDF2 کار توسعه دهندگان را با ارائه توابع داخلی برای بازیابی اطلاعات آسان می کند. آنها می توانند از متد ()extractText در شی صفحه برای دریافت محتوای متنی صفحه استفاده کنند.

خواندن فایل PDF از طریق پایتون

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

اسناد PDF را ادغام یا تقسیم کنید

آیا تا به حال در موقعیتی بوده اید که نیاز داشته باشید دو یا چند فایل PDF را در یک سند واحد ادغام کنید؟ سازمان اغلب به ادغام چندین فایل PDF در یک سند واحد نیاز دارد. کتابخانه PyPDF2 قابلیت ترکیب فایل‌های PDF را تنها با چند خط کد پایتون فراهم می‌کند. توسعه دهندگان همچنین می توانند به راحتی اسناد PDF بزرگ را با توجه به نیاز خود به موارد کوچکتر تقسیم کنند. توسعه دهندگان می توانند به راحتی قسمت خاصی از یک کتاب PDF را استخراج کنند یا آن را به چندین PDF تقسیم کنند

ادغام فایل های PDF از طریق پایتون

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

استخراج متادیتا از فایل های PDF

کتابخانه PyPDF2 دارای قابلیتی برای استخراج فراداده از اسناد PDF با استفاده از چند دستور پایتون است. شما به راحتی می توانید اطلاعاتی در مورد نویسنده، برنامه سازنده، تعداد صفحات، عنوان سند و تاریخ ایجاد و غیره به دست آورید. می توانید به راحتی ابرداده اسناد PDF را استخراج کرده و مطابق با نیاز خود از آن استفاده کنید.

 

استخراج متادیتا از PDF از طریق پایتون

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 فارسی