Open Source Python Library pro zpracování souborů PDF
Zdarma Python API umožňuje linearizaci PDF a přístup k šifrovaným PDF. Podporuje vytváření PDF od začátku, kopírování stránek z jednoho PDF do druhého, rozdělení nebo sloučení PDF a mnoho dalších.
PikePDF je velmi jednoduchá knihovna Python PDF, která umožňuje vývojářům softwaru pracovat se soubory PDF v aplikacích Python. Je založen na QPDF, výkonné knihovně pro manipulaci a opravy PDF. PikePDF je knihovna pro transformaci obsahu PDF a poskytuje nízkoúrovňový přístup k souborům PDF. To znamená, že uživatelé potřebují znalost interních dokumentů PDF a znalost specifikací PDF. Knihovna je open source a je k dispozici pod licencí MIT pro veřejné použití. Knihovna je open source a je dostupná pod licencí MPL-2.0.
PikePDF poskytuje podporu pro linearizaci PDF a přístup k šifrovaným PDF. Obsahuje velmi výkonnou sadu funkcí souvisejících se správou PDF, jako je tvorba PDF od začátku, kopírování stránek z jednoho PDF do druhého, rozdělení nebo sloučení PDF, extrakce obrázků nebo textu z PDF, nahrazení obsahu v PDF, podpora oprav PDF, stránka podpora nastavení, správa metadat PDF, práce s heslem, editace metadat PDF XMP, transformace existujících PDF a další.
.
Začínáme s PikePDF
PikePDF vyžaduje Python 3.6 a vyšší. PikePDF můžete nainstalovat pomocí pip. K instalaci použijte následující příkaz.
Nainstalujte PikePDF přes pip
pip install pikepdf
Kopírování stránek z jednoho PDF do druhého přes Python
Open source knihovna PikePDF poskytuje schopnost, která umožňuje vývojářům softwaru kopírovat stránku z jednoho PDF do druhého pomocí pouhých několika řádků kódu Python. Kopírování stránek mezi objekty PDF vytvoří mělkou kopii zdrojové stránky v cílovém souboru PDF, a proto úprava stránek neovlivní původní dokumenty PDF. Je také možné nahradit konkrétní stránky vlastním obsahem. Je také možné kopírovat stránky v rámci konkrétního PDF.
Otevírejte a manipulujte s dokumenty PDF pomocí Pythonu
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
Rozdělení a sloučení PDF přes Python
Knihovna PDF PikePDF poskytuje vývojářům softwaru možnost přistupovat ke stávajícím souborům PDF a snadno je rozdělit do více souborů PDF. Při rozdělování PDF požadujeme pouze to, aby nové PDF obsahovaly cílové stránky. Knihovna také zajišťuje přenos dat spojených s každou stránkou, takže každá stránka stojí samostatně. Knihovna také obsahovala podporu pro slučování nebo zřetězení více PDF dokumentů do jednoho. Je také možné obrátit pořadí stránek PDF pomocí pouhých několika řádků kódu.
Rozdělit a sloučit dokumenty PDF přes Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Spravujte obrázky v dokumentu PDF pomocí Pythonu
Knihovna PDF PikePDF usnadňuje vývojářům softwaru práci s obrázky uvnitř souboru PDF pomocí příkazů Pythonu. Knihovna obsahuje několik důležitých funkcí souvisejících se zpracováním obrázků, jako je kopírování obrázků na stránce PDF, otevírání a prohlížení PDF, změna velikosti obrázků, manipulace s obrázky v PDF, extrahování obrázků z PDF, nahrazování obrázků, mazání obrázku z PDF a mnoho dalších. .
Extrahujte obrázek a nahraďte jej v PDF přes Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
Zpracování metadat PDF přes Python
Metadata PDF obsahují velmi užitečné informace o dokumentu PDF, jako je jméno autora, datum vytvoření a úpravy, klíčová slova, informace o autorských právech a tak dále. Knihovna PDF PikePDF obsahuje kompletní funkce pro přístup k metadatům a jejich čtení, extrahování metadat, mazání položek metadat z dokumentů PDF. Následující příklad kódu ukazuje, jak extrahovat metadata z dokumentů PDF.
Jak extrahovat metadata PDF přes Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)