Бібліотека Python з відкритим вихідним кодом для конвертації PDF-файлів

Безкоштовний API Python дозволяє розробникам експортувати, обертати, об’єднувати та об’єднувати PDF-файли, витягувати дані та елементи з PDF-файлів.

pdfrw — це чиста бібліотека Python з відкритим вихідним кодом, яка дозволяє розробникам програмного забезпечення читати та записувати PDF-файли без встановлення будь-якого зовнішнього спеціального програмного забезпечення. Бібліотека програмування pdfrw дуже простау використанні, а вихідний код добре задокументований, дуже простий і легкий для розуміння. Бібліотека включає належну підтримку Unicode для текстових рядків у PDF-файлах, а також найшвидший аналізатор PDF на чистому Python.

Бібліотека pdfrw включає підтримку кількох важливих PDF-операцій, таких як об’єднання PDF-файлів, зміна метаданих, об’єднання кількох PDF-файлів разом, видобування зображень, друк PDF-файлів, поворот PDF-сторінок, створення нового PDF-файлу, додавання водяного знака PDF-зображення та багато іншого.

.

Previous Next

Початок роботи з pdfrw

Для pdfrw потрібен Python 2.6, 2.7, 3.3, 3.4, 3.5 і 3.6. Ви можете встановити pdfrw за допомогою pip. Щоб установити його, скористайтеся наступною командою.

Встановіть pdfrw через pip

 python -m pip install pdfrw  

Створюйте PDF-документи за допомогою бібліотеки Python

Бібліотека pdfrw надає розробникам програмного забезпечення можливість створювати PDF-документи у своїх власних програмах Python за допомогою лише кількох рядків коду. Бібліотека також надає підтримку доступу до існуючих PDF-файлів і їх редагування. Ви можете легко вставляти нові сторінки, а також графічні компоненти чи текстові елементи в наявний PDF-файл. Бібліотека pdfrw підтримує пошук сторінок у файлах PDF, які ви читаєте, і записування набору сторінок у новий файл PDF.

Створюйте та змінюйте PDF-документи за допомогою Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Читання PDF-файлів через Python

Бібліотека pdfrw надає розробникам програмного забезпечення легкий доступ і читання різних частин PDF-документів у програмах Python. Це забезпечує легкий доступ до всього документа PDF. Бібліотека підтримує отримання інформації про файл, розмір тощо. Він створює спеціальний атрибут під назвою pages, який дозволяє користувачам перелічувати всі сторінки документа PDF. Він дає вам змогу витягти об’єкт інформації про документ, який можна використовувати для отримання інформації, як-от автора, заголовка тощо.

Доступ і читання PDF-файлів через Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Додавання або зміна метаданих

pdfrw дозволяє розробникам програмного забезпечення додавати або змінювати метадані PDF-файлів у своїх власних програмах Python. Ви можете змінити окремий елемент метаданих у PDF-файлі, записати результат у новий PDF-файл, а також включити кілька файлів і об’єднати їх після додавання безглуздих метаданих до вихідного PDF-файлу.

Змінюйте метадані PDF за допомогою Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Розбиття документів PDF

pdfrw дозволяє розробникам програмного забезпечення програмно розділяти документи PDF-документів у своїх програмах. Користувачеві може знадобитися видобути певну частину PDF-книги або розділити її на кілька PDF-файлів замість того, щоб зберігати їх в одному файлі. Це дуже просто з бібліотекою pdfrw, вам просто потрібно вказати шлях до вхідного PDF-файлу, кількість сторінок, які ви хочете витягти, і вихідний шлях.

Розділіть PDF-файл на кілька PDF-файлів за допомогою Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Українська