1. Produkty
  2.   PDF
  3.   Python
  4.   Pikepdf
 
  

Biblioteka Open Source Python do przetwarzania plików PDF

Darmowy Python API umożliwia linearyzację plików PDF i dostęp do zaszyfrowanych plików PDF. Obsługuje tworzenie plików PDF od podstaw, kopiowanie stron z jednego pliku PDF do drugiego, dzielenie lub scalanie plików PDF i wiele innych.

PikePDF to bardzo prosta biblioteka Python PDF, która umożliwia programistom pracę z plikami PDF w aplikacjach Python. Opiera się na QPDF, potężnej bibliotece do manipulacji i naprawy plików PDF. PikePDF to biblioteka do przekształcania treści PDF i zapewnia dostęp niskiego poziomu do plików PDF. Oznacza to, że użytkownicy potrzebują znajomości wewnętrznych mechanizmów PDF i znajomości specyfikacji PDF. Biblioteka jest open source i jest dostępna na licencji MIT do użytku publicznego. Biblioteka jest open source i jest dostępna na licencji MPL-2.0.

PikePDF zapewnia obsługę linearyzacji plików PDF i dostęp do zaszyfrowanych plików PDF. Zawiera bardzo potężny zestaw funkcji związanych z zarządzaniem plikami PDF, takich jak tworzenie plików PDF od podstaw, kopiowanie stron z jednego pliku PDF do drugiego, dzielenie lub scalanie plików PDF, wyodrębnianie obrazu lub tekstu z pliku PDF, zastępowanie treści w pliku PDF, obsługa naprawy plików PDF, strona obsługa ustawień, zarządzanie metadanymi PDF, praca z chronionymi hasłem, edycja metadanych PDF XMP, transformacja istniejących plików PDF i wiele więcej.

.

Previous Next

Pierwsze kroki z PikePDF

PikePDF wymaga Pythona 3.6 lub nowszego. Możesz zainstalować PikePDF za pomocą pip. Użyj następującego polecenia, aby go zainstalować.

Zainstaluj PikePDF przez pip

 pip install pikepdf

Kopiuj strony z jednego pliku PDF do drugiego za pomocą Pythona

Biblioteka PikePDF o otwartym kodzie źródłowym zapewnia możliwość, która umożliwia programistom współpłatność stron z jednego pliku PDF do drugiego za pomocą zaledwie kilku wierszy kodu w Pythonie. Kopiowanie stron między obiektami PDF spowoduje utworzenie płytkiej kopii strony źródłowej w docelowym pliku PDF, a zatem modyfikacja stron nie wpłynie na oryginalne dokumenty PDF. Możliwe jest również zastąpienie określonych stron treściami niestandardowymi. Możliwe jest również kopiowanie stron w określonym pliku PDF.

Otwieraj i manipuluj dokumentami PDF za pomocą Pythona

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

Dzielenie i scalanie plików PDF za pomocą Pythona

Biblioteka PDF PikePDF daje programistom możliwość dostępu do istniejących plików PDF i łatwego dzielenia ich na wiele plików PDF. Podczas dzielenia plików PDF wymagamy tylko, aby nowe pliki PDF zawierały strony docelowe. Biblioteka zapewnia również transfer danych związanych z każdą stroną, dzięki czemu każda strona jest samodzielna. Biblioteka zawierała również obsługę łączenia lub łączenia wielu dokumentów PDF w jeden. Możliwe jest również odwrócenie kolejności stron PDF za pomocą zaledwie kilku linijek kodu.

Dziel i łącz dokumenty PDF za pomocą Pythona

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Zarządzaj obrazami w dokumencie PDF za pomocą Pythona

Biblioteka PDF PikePDF ułatwia programistom obsługę obrazów w pliku PDF za pomocą poleceń Pythona. Biblioteka zawiera kilka ważnych funkcji związanych z obsługą obrazów, takich jak kopiowanie obrazów na stronie PDF, otwieranie i przeglądanie plików PDF, zmiana rozmiaru obrazów, manipulowanie obrazami w pliku PDF, wyodrębnianie obrazów z pliku PDF, zastępowanie obrazów, usuwanie obrazu z pliku PDF i wiele innych .

Wyodrębnij obraz i zastąp go w formacie PDF za pomocą Pythona

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

Obsługa metadanych PDF w Pythonie

Metadane PDF zawierają bardzo przydatne informacje o dokumencie PDF, takie jak imię i nazwisko autora, data utworzenia i modyfikacji, słowa kluczowe, informacje o prawach autorskich i tak dalej. Biblioteka PDF PikePDF zawiera pełną funkcjonalność dostępu i odczytu metadanych, wyodrębniania metadanych, usuwania wpisów metadanych z dokumentów PDF. Poniższy przykład kodu pokazuje, jak wyodrębnić metadane z dokumentów PDF.

Jak wyodrębnić metadane PDF za pomocą Pythona?

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 Polski