Python библиотека с отворен код за обработка на PDF файлове
Безплатният API на Python позволява линеаризиране на PDF файлове и достъп до криптирани PDF файлове. Той поддържа създаване на PDF от нулата, копиране на страници от един PDF в друг, разделяне или обединяване на PDF файлове и много други.
PikePDF е много проста PDF библиотека на Python, която позволява на разработчиците на софтуер да работят с PDF файлове в приложения на Python. Базиран е на QPDF, мощна библиотека за манипулиране и поправка на PDF. PikePDF е библиотека за преобразуване на PDF съдържание и предоставя достъп на ниско ниво до PDF файлове. Това означава, че потребителите се нуждаят от познания за вътрешните функции на PDF и познаване на PDF спецификациите. Библиотеката е с отворен код и е достъпна под лиценза на MIT за обществено ползване. Библиотеката е с отворен код и се предлага под лиценз MPL-2.0.
PikePDF предоставя поддръжка за линеаризиране на PDF файлове и достъп до криптирани PDF файлове. Той включва много мощен набор от функции, свързани с управление на PDF, като създаване на PDF от нулата, копиране на страници от един PDF в друг, разделяне или обединяване на PDF файлове, извличане на изображение или текст от PDF, подмяна на съдържание в PDF, поддръжка за поправка на PDF, страница поддръжка на настройките, управление на PDF метаданни, работа със защитени с парола, PDF XMP редактиране на метаданни, трансформиране на съществуващи PDF файлове и много други.
.
Първи стъпки с PikePDF
PikePDF изисква Python 3.6 и по-нова версия. Можете да инсталирате PikePDF с помощта на pip. Моля, използвайте следната команда, за да го инсталирате.
Инсталирайте PikePDF чрез pip
pip install pikepdf
Копирайте страници от един PDF в друг чрез Python
Библиотеката PikePDF с отворен код предоставя възможността, която позволява на разработчиците на софтуер да копират страница от един PDF в друг само с няколко реда код на Python. Копирането на страници между PDF обекти ще създаде плитко копие на изходната страница в целевия PDF файл и следователно модифицирането на страниците няма да засегне оригиналните PDF документи. Възможно е също така да замените конкретни страници с персонализирано съдържание. Възможно е също така да копирате страници в определен PDF файл.
Отваряне и манипулиране на PDF документи чрез Python
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
PDF разделяне и обединяване чрез Python
Библиотеката PDF PikePDF дава на разработчиците на софтуер силата за достъп до съществуващи PDF файлове и лесното им разделяне на множество PDF файлове. Докато разделяме PDF, всичко, което изискваме, е новите PDF файлове да съдържат целевите страници. Библиотеката също така гарантира прехвърлянето на данни, свързани с всяка страница, така че всяка страница да стои сама по себе си. Библиотеката също така включва поддръжка за обединяване или свързване на множество PDF документи в един. Възможно е също така да обърнете реда на PDF страниците само с няколко реда код.
Разделяне и обединяване на PDF документи чрез Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Управление на изображения в PDF документ чрез Python
Библиотеката PDF PikePDF улеснява разработчиците на софтуер да обработват изображения в PDF файл с помощта на команди на Python. Библиотеката включва няколко важни функции, свързани с обработката на изображения, като копиране на изображения в PDF страница, отваряне и преглед на PDF, преоразмеряване на изображения, манипулиране на изображения в PDF, извличане на изображения от PDF, замяна на изображения, изтриване на изображение от PDF и много други .
Извлечете изображение и го заменете в PDF чрез Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
Обработка на PDF метаданни чрез Python
PDF метаданните включват много полезна информация за PDF документ, като име на автора, дата на създаване и модификация, ключови думи, информация за авторски права и т.н. Библиотеката PDF PikePDF включва пълна функционалност за достъп и четене на метаданни, извличане на метаданни, изтриване на записи на метаданни от PDF документи. Следният пример на код показва как да извлечете метаданни от PDF документи.
Как да извлечете PDF метаданни чрез Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)