Библиотека на Python с отворен код за конвертиране на PDF файлове

Безплатният API на Python позволява на разработчиците да експортират, завъртат, обединяват и свързват PDF файлове, да извличат данни и елементи от PDF файлове.

pdfrw е библиотека с чист Python с отворен код, която позволява на разработчиците на софтуер да четат и записват PDF файлове, без да инсталират външен специален софтуер. Програмната библиотека pdfrw е много простаза използване и изходният код е добре документиран, много прост и лесен за разбиране. Библиотеката включва подходяща поддръжка на Unicode за текстови низове в PDF файлове, както и най-бързия чист Python PDF анализатор.

Библиотеката pdfrw включва поддръжка за няколко важни PDF операции, като обединяване на PDF файлове, модифициране на метаданни, свързване на множество PDF файлове заедно, извличане на изображения, печат на PDF, завъртане на PDF страници, създаване на нов PDF, добавяне на PDF изображение с воден знак и много други.

.

Previous Next

Първи стъпки с pdfrw

pdfrw изисква Python 2.6, 2.7, 3.3, 3.4, 3.5 и 3.6. Можете да инсталирате pdfrw с помощта на pip. Моля, използвайте следната команда, за да го инсталирате.

Инсталирайте pdfrw чрез pip

 python -m pip install pdfrw  

Създавайте PDF документи чрез Python Library

Библиотеката pdfrw предоставя на разработчиците на софтуер възможността да създават Създаване на PDF документи в техните собствени приложения на Python само с няколко реда код. Библиотеката също така предоставя поддръжка за достъп и модифициране на съществуващи PDF файлове. Можете лесно да вмъквате нови страници, както и графични компоненти или текстови елементи в съществуващия PDF файл. Библиотеката pdfrw осигурява поддръжка за намиране на страниците в PDF файлове, които четете, и за записване на набор от страници обратно в нов PDF файл.

Създавайте и променяйте PDF документи чрез Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Четене на PDF файлове чрез Python

Библиотеката pdfrw дава на разработчиците на софтуер лесен достъп и четене на различни части от PDF документи в приложения на Python. Дава лесен достъп до целия PDF документ. Библиотеката поддържа извличане на информация за файла, размер и др. Той създава специален атрибут с име pages, който позволява на потребителите да изброяват всички страници на PDF документ. Позволява ви да извлечете обект с информация за документ, който можете да използвате, за да извлечете информация като автор, заглавие и др.

Достъп и четене на PDF файлове чрез Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Добавяне или промяна на метаданни

pdfrw позволява на разработчиците на софтуер да добавят или променят метаданни на PDF файлове в собствените си приложения на Python. Можете да промените един елемент с метаданни в PDF, да запишете резултата в нов PDF, както и да включите множество файлове и да ги свържете, след като добавите някои безсмислени метаданни към изходния PDF файл.

Променете PDF метаданни чрез Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Разделяне на PDF документи

pdfrw позволява на разработчиците на софтуер програмно да разделят PDF документи в своите приложения. Потребителят може да изисква извличане на конкретна част от PDF книга или разделянето й на множество PDF файлове, вместо да ги съхранява в един файл. Много е лесно с библиотеката pdfrw, просто трябва да предоставите път на входния PDF файл, броя на страниците, които искате да извлечете, и изходния път.

Разделете PDF файл на множество PDF файлове чрез Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Български