Библиотека на Python с отворен код за конвертиране на PDF файлове
Безплатният API на Python позволява на разработчиците да експортират, завъртат, обединяват и свързват PDF файлове, да извличат данни и елементи от PDF файлове.
pdfrw е библиотека с чист Python с отворен код, която позволява на разработчиците на софтуер да четат и записват PDF файлове, без да инсталират външен специален софтуер. Програмната библиотека pdfrw е много простаза използване и изходният код е добре документиран, много прост и лесен за разбиране. Библиотеката включва подходяща поддръжка на Unicode за текстови низове в PDF файлове, както и най-бързия чист Python PDF анализатор.
Библиотеката pdfrw включва поддръжка за няколко важни PDF операции, като обединяване на PDF файлове, модифициране на метаданни, свързване на множество PDF файлове заедно, извличане на изображения, печат на PDF, завъртане на PDF страници, създаване на нов PDF, добавяне на PDF изображение с воден знак и много други.
.
Първи стъпки с pdfrw
pdfrw изисква Python 2.6, 2.7, 3.3, 3.4, 3.5 и 3.6. Можете да инсталирате pdfrw с помощта на pip. Моля, използвайте следната команда, за да го инсталирате.
Инсталирайте pdfrw чрез pip
python -m pip install pdfrw
Създавайте PDF документи чрез Python Library
Библиотеката pdfrw предоставя на разработчиците на софтуер възможността да създават Създаване на PDF документи в техните собствени приложения на Python само с няколко реда код. Библиотеката също така предоставя поддръжка за достъп и модифициране на съществуващи PDF файлове. Можете лесно да вмъквате нови страници, както и графични компоненти или текстови елементи в съществуващия PDF файл. Библиотеката pdfrw осигурява поддръжка за намиране на страниците в PDF файлове, които четете, и за записване на набор от страници обратно в нов PDF файл.
Създавайте и променяйте PDF документи чрез Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Четене на PDF файлове чрез Python
Библиотеката pdfrw дава на разработчиците на софтуер лесен достъп и четене на различни части от PDF документи в приложения на Python. Дава лесен достъп до целия PDF документ. Библиотеката поддържа извличане на информация за файла, размер и др. Той създава специален атрибут с име pages, който позволява на потребителите да изброяват всички страници на PDF документ. Позволява ви да извлечете обект с информация за документ, който можете да използвате, за да извлечете информация като автор, заглавие и др.
Достъп и четене на PDF файлове чрез Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Добавяне или промяна на метаданни
pdfrw позволява на разработчиците на софтуер да добавят или променят метаданни на PDF файлове в собствените си приложения на Python. Можете да промените един елемент с метаданни в PDF, да запишете резултата в нов PDF, както и да включите множество файлове и да ги свържете, след като добавите някои безсмислени метаданни към изходния PDF файл.
Променете PDF метаданни чрез Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Разделяне на PDF документи
pdfrw позволява на разработчиците на софтуер програмно да разделят PDF документи в своите приложения. Потребителят може да изисква извличане на конкретна част от PDF книга или разделянето й на множество PDF файлове, вместо да ги съхранява в един файл. Много е лесно с библиотеката pdfrw, просто трябва да предоставите път на входния PDF файл, броя на страниците, които искате да извлечете, и изходния път.
Разделете PDF файл на множество PDF файлове чрез Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')