Python библиотека с отворен код за обработка на PDF файлове

Безплатният API на Python позволява линеаризиране на PDF файлове и достъп до криптирани PDF файлове. Той поддържа създаване на PDF от нулата, копиране на страници от един PDF в друг, разделяне или обединяване на PDF файлове и много други.

PikePDF е много проста PDF библиотека на Python, която позволява на разработчиците на софтуер да работят с PDF файлове в приложения на Python. Базиран е на QPDF, мощна библиотека за манипулиране и поправка на PDF. PikePDF е библиотека за преобразуване на PDF съдържание и предоставя достъп на ниско ниво до PDF файлове. Това означава, че потребителите се нуждаят от познания за вътрешните функции на PDF и познаване на PDF спецификациите. Библиотеката е с отворен код и е достъпна под лиценза на MIT за обществено ползване. Библиотеката е с отворен код и се предлага под лиценз MPL-2.0.

PikePDF предоставя поддръжка за линеаризиране на PDF файлове и достъп до криптирани PDF файлове. Той включва много мощен набор от функции, свързани с управление на PDF, като създаване на PDF от нулата, копиране на страници от един PDF в друг, разделяне или обединяване на PDF файлове, извличане на изображение или текст от PDF, подмяна на съдържание в PDF, поддръжка за поправка на PDF, страница поддръжка на настройките, управление на PDF метаданни, работа със защитени с парола, PDF XMP редактиране на метаданни, трансформиране на съществуващи PDF файлове и много други.

С един поглед

Преглед на функциите на PikePDF.

Преглед на характеристиките

Генерирайте PDF
Копиране на PDF страници
Извличане на изображения
Ремонт на PDF
Извличане на текст
Разделяне на PDF файлове
Обединяване на PDF файлове
Въртящи се PDF файлове
Конкатениране на PDF файлове
Вграждане на хипервръзки
Вмъкване на кръгове
Добавете сложни форми
Подмяна на съдържанието
Извличане на данни
Текст кернинг
PDF формуляр
Вграждане на изображения

ЩукаPDF

PikePDF поддържа PDF файлов формат, както и индустриални стандартни формати за експортиране.

Читател

Писател

TXT, HTML

ЩукаPDF

Независимост на платформата

PikePDF е тестван с Python 3.6 и по-нова версия.

Python 3.6 и по-нова версия

ЩукаPDF

Първи стъпки с PikePDF

PikePDF изисква Python 3.6 и по-нова версия. Можете да инсталирате PikePDF с помощта на pip. Моля, използвайте следната команда, за да го инсталирате.

Инсталирайте PikePDF чрез pip

 pip install pikepdf

Копирайте страници от един PDF в друг чрез Python

Библиотеката PikePDF с отворен код предоставя възможността, която позволява на разработчиците на софтуер да копират страница от един PDF в друг само с няколко реда код на Python. Копирането на страници между PDF обекти ще създаде плитко копие на изходната страница в целевия PDF файл и следователно модифицирането на страниците няма да засегне оригиналните PDF документи. Възможно е също така да замените конкретни страници с персонализирано съдържание. Възможно е също така да копирате страници в определен PDF файл.

Отваряне и манипулиране на PDF документи чрез Python

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

PDF разделяне и обединяване чрез Python

Библиотеката PDF PikePDF дава на разработчиците на софтуер силата за достъп до съществуващи PDF файлове и лесното им разделяне на множество PDF файлове. Докато разделяме PDF, всичко, което изискваме, е новите PDF файлове да съдържат целевите страници. Библиотеката също така гарантира прехвърлянето на данни, свързани с всяка страница, така че всяка страница да стои сама по себе си. Библиотеката също така включва поддръжка за обединяване или свързване на множество PDF документи в един. Възможно е също така да обърнете реда на PDF страниците само с няколко реда код.

Разделяне и обединяване на PDF документи чрез Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Управление на изображения в PDF документ чрез Python

Библиотеката PDF PikePDF улеснява разработчиците на софтуер да обработват изображения в PDF файл с помощта на команди на Python. Библиотеката включва няколко важни функции, свързани с обработката на изображения, като копиране на изображения в PDF страница, отваряне и преглед на PDF, преоразмеряване на изображения, манипулиране на изображения в PDF, извличане на изображения от PDF, замяна на изображения, изтриване на изображение от PDF и много други .

Извлечете изображение и го заменете в PDF чрез Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

Обработка на PDF метаданни чрез Python

PDF метаданните включват много полезна информация за PDF документ, като име на автора, дата на създаване и модификация, ключови думи, информация за авторски права и т.н. Библиотеката PDF PikePDF включва пълна функционалност за достъп и четене на метаданни, извличане на метаданни, изтриване на записи на метаданни от PDF документи. Следният пример на код показва как да извлечете метаданни от PDF документи.

Как да извлечете PDF метаданни чрез Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)