Biblioteka Open Source Python do przetwarzania plików PDF
Darmowy Python API umożliwia linearyzację plików PDF i dostęp do zaszyfrowanych plików PDF. Obsługuje tworzenie plików PDF od podstaw, kopiowanie stron z jednego pliku PDF do drugiego, dzielenie lub scalanie plików PDF i wiele innych.
PikePDF to bardzo prosta biblioteka Python PDF, która umożliwia programistom pracę z plikami PDF w aplikacjach Python. Opiera się na QPDF, potężnej bibliotece do manipulacji i naprawy plików PDF. PikePDF to biblioteka do przekształcania treści PDF i zapewnia dostęp niskiego poziomu do plików PDF. Oznacza to, że użytkownicy potrzebują znajomości wewnętrznych mechanizmów PDF i znajomości specyfikacji PDF. Biblioteka jest open source i jest dostępna na licencji MIT do użytku publicznego. Biblioteka jest open source i jest dostępna na licencji MPL-2.0.
PikePDF zapewnia obsługę linearyzacji plików PDF i dostęp do zaszyfrowanych plików PDF. Zawiera bardzo potężny zestaw funkcji związanych z zarządzaniem plikami PDF, takich jak tworzenie plików PDF od podstaw, kopiowanie stron z jednego pliku PDF do drugiego, dzielenie lub scalanie plików PDF, wyodrębnianie obrazu lub tekstu z pliku PDF, zastępowanie treści w pliku PDF, obsługa naprawy plików PDF, strona obsługa ustawień, zarządzanie metadanymi PDF, praca z chronionymi hasłem, edycja metadanych PDF XMP, transformacja istniejących plików PDF i wiele więcej.
.
Pierwsze kroki z PikePDF
PikePDF wymaga Pythona 3.6 lub nowszego. Możesz zainstalować PikePDF za pomocą pip. Użyj następującego polecenia, aby go zainstalować.
Zainstaluj PikePDF przez pip
pip install pikepdf
Kopiuj strony z jednego pliku PDF do drugiego za pomocą Pythona
Biblioteka PikePDF o otwartym kodzie źródłowym zapewnia możliwość, która umożliwia programistom współpłatność stron z jednego pliku PDF do drugiego za pomocą zaledwie kilku wierszy kodu w Pythonie. Kopiowanie stron między obiektami PDF spowoduje utworzenie płytkiej kopii strony źródłowej w docelowym pliku PDF, a zatem modyfikacja stron nie wpłynie na oryginalne dokumenty PDF. Możliwe jest również zastąpienie określonych stron treściami niestandardowymi. Możliwe jest również kopiowanie stron w określonym pliku PDF.
Otwieraj i manipuluj dokumentami PDF za pomocą Pythona
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
Dzielenie i scalanie plików PDF za pomocą Pythona
Biblioteka PDF PikePDF daje programistom możliwość dostępu do istniejących plików PDF i łatwego dzielenia ich na wiele plików PDF. Podczas dzielenia plików PDF wymagamy tylko, aby nowe pliki PDF zawierały strony docelowe. Biblioteka zapewnia również transfer danych związanych z każdą stroną, dzięki czemu każda strona jest samodzielna. Biblioteka zawierała również obsługę łączenia lub łączenia wielu dokumentów PDF w jeden. Możliwe jest również odwrócenie kolejności stron PDF za pomocą zaledwie kilku linijek kodu.
Dziel i łącz dokumenty PDF za pomocą Pythona
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Zarządzaj obrazami w dokumencie PDF za pomocą Pythona
Biblioteka PDF PikePDF ułatwia programistom obsługę obrazów w pliku PDF za pomocą poleceń Pythona. Biblioteka zawiera kilka ważnych funkcji związanych z obsługą obrazów, takich jak kopiowanie obrazów na stronie PDF, otwieranie i przeglądanie plików PDF, zmiana rozmiaru obrazów, manipulowanie obrazami w pliku PDF, wyodrębnianie obrazów z pliku PDF, zastępowanie obrazów, usuwanie obrazu z pliku PDF i wiele innych .
Wyodrębnij obraz i zastąp go w formacie PDF za pomocą Pythona
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
Obsługa metadanych PDF w Pythonie
Metadane PDF zawierają bardzo przydatne informacje o dokumencie PDF, takie jak imię i nazwisko autora, data utworzenia i modyfikacji, słowa kluczowe, informacje o prawach autorskich i tak dalej. Biblioteka PDF PikePDF zawiera pełną funkcjonalność dostępu i odczytu metadanych, wyodrębniania metadanych, usuwania wpisów metadanych z dokumentów PDF. Poniższy przykład kodu pokazuje, jak wyodrębnić metadane z dokumentów PDF.
Jak wyodrębnić metadane PDF za pomocą Pythona?
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)