1. produkty
  2.   PDF
  3.   Python
  4.   Pikepdf
 
  

Open Source Python Library pro zpracování souborů PDF

Zdarma Python API umožňuje linearizaci PDF a přístup k šifrovaným PDF. Podporuje vytváření PDF od začátku, kopírování stránek z jednoho PDF do druhého, rozdělení nebo sloučení PDF a mnoho dalších.

PikePDF je velmi jednoduchá knihovna Python PDF, která umožňuje vývojářům softwaru pracovat se soubory PDF v aplikacích Python. Je založen na QPDF, výkonné knihovně pro manipulaci a opravy PDF. PikePDF je knihovna pro transformaci obsahu PDF a poskytuje nízkoúrovňový přístup k souborům PDF. To znamená, že uživatelé potřebují znalost interních dokumentů PDF a znalost specifikací PDF. Knihovna je open source a je k dispozici pod licencí MIT pro veřejné použití. Knihovna je open source a je dostupná pod licencí MPL-2.0.

PikePDF poskytuje podporu pro linearizaci PDF a přístup k šifrovaným PDF. Obsahuje velmi výkonnou sadu funkcí souvisejících se správou PDF, jako je tvorba PDF od začátku, kopírování stránek z jednoho PDF do druhého, rozdělení nebo sloučení PDF, extrakce obrázků nebo textu z PDF, nahrazení obsahu v PDF, podpora oprav PDF, stránka podpora nastavení, správa metadat PDF, práce s heslem, editace metadat PDF XMP, transformace existujících PDF a další.

.

Previous Next

Začínáme s PikePDF

PikePDF vyžaduje Python 3.6 a vyšší. PikePDF můžete nainstalovat pomocí pip. K instalaci použijte následující příkaz.

Nainstalujte PikePDF přes pip

 pip install pikepdf

Kopírování stránek z jednoho PDF do druhého přes Python

Open source knihovna PikePDF poskytuje schopnost, která umožňuje vývojářům softwaru kopírovat stránku z jednoho PDF do druhého pomocí pouhých několika řádků kódu Python. Kopírování stránek mezi objekty PDF vytvoří mělkou kopii zdrojové stránky v cílovém souboru PDF, a proto úprava stránek neovlivní původní dokumenty PDF. Je také možné nahradit konkrétní stránky vlastním obsahem. Je také možné kopírovat stránky v rámci konkrétního PDF.

Otevírejte a manipulujte s dokumenty PDF pomocí Pythonu

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

Rozdělení a sloučení PDF přes Python

Knihovna PDF PikePDF poskytuje vývojářům softwaru možnost přistupovat ke stávajícím souborům PDF a snadno je rozdělit do více souborů PDF. Při rozdělování PDF požadujeme pouze to, aby nové PDF obsahovaly cílové stránky. Knihovna také zajišťuje přenos dat spojených s každou stránkou, takže každá stránka stojí samostatně. Knihovna také obsahovala podporu pro slučování nebo zřetězení více PDF dokumentů do jednoho. Je také možné obrátit pořadí stránek PDF pomocí pouhých několika řádků kódu.

Rozdělit a sloučit dokumenty PDF přes Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Spravujte obrázky v dokumentu PDF pomocí Pythonu

Knihovna PDF PikePDF usnadňuje vývojářům softwaru práci s obrázky uvnitř souboru PDF pomocí příkazů Pythonu. Knihovna obsahuje několik důležitých funkcí souvisejících se zpracováním obrázků, jako je kopírování obrázků na stránce PDF, otevírání a prohlížení PDF, změna velikosti obrázků, manipulace s obrázky v PDF, extrahování obrázků z PDF, nahrazování obrázků, mazání obrázku z PDF a mnoho dalších. .

Extrahujte obrázek a nahraďte jej v PDF přes Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

Zpracování metadat PDF přes Python

Metadata PDF obsahují velmi užitečné informace o dokumentu PDF, jako je jméno autora, datum vytvoření a úpravy, klíčová slova, informace o autorských právech a tak dále. Knihovna PDF PikePDF obsahuje kompletní funkce pro přístup k metadatům a jejich čtení, extrahování metadat, mazání položek metadat z dokumentů PDF. Následující příklad kódu ukazuje, jak extrahovat metadata z dokumentů PDF.

Jak extrahovat metadata PDF přes Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 Čeština