1. Produktai
  2.   PDF
  3.   Python
  4.   Pikepdf
 
  

Atvirojo kodo Python biblioteka PDF failams apdoroti

Nemokama Python API leidžia linijuoti PDF failus ir pasiekti užšifruotus PDF failus. Jis palaiko PDF kūrimą nuo nulio, puslapių kopijavimą iš vieno PDF į kitą, PDF failų skaidymą arba sujungimą ir daug daugiau.

PikePDF yra labai paprasta Python PDF biblioteka, leidžianti programinės įrangos kūrėjams dirbti su PDF failais Python programose. Jis pagrįstas QPDF, galinga PDF manipuliavimo ir taisymo biblioteka. PikePDF yra PDF turinio transformavimo biblioteka ir suteikia žemo lygio prieigą prie PDF failų. Tai reiškia, kad vartotojams reikia išmanyti PDF vidines dalis ir susipažinti su PDF specifikacijomis. Biblioteka yra atvirojo kodo ir yra prieinama pagal MIT licenciją viešam naudojimui. Biblioteka yra atvirojo kodo ir yra prieinama pagal MPL-2.0 licenciją.

„PikePDF“ palaiko PDF linijavimą ir prieigą prie užšifruotų PDF failų. Jame yra labai galingas su PDF valdymu susijusių funkcijų rinkinys, pvz., PDF kūrimas nuo nulio, puslapių kopijavimas iš vieno PDF į kitą, PDF failų skaidymas arba sujungimas, vaizdo ar teksto ištraukimas iš PDF, turinio pakeitimas PDF formatu, PDF taisymo palaikymas, puslapis. nustatymų palaikymas, PDF metaduomenų tvarkymas, slaptažodžiu apsaugotas darbas, PDF XMP metaduomenų redagavimas, esamų PDF failų transformavimas ir dar daugiau.

.

Previous Next

Darbo su PikePDF pradžia

„PikePDF“ reikalinga „Python 3.6“ ir naujesnė versija. PikePDF galite įdiegti naudodami pip. Norėdami ją įdiegti, naudokite šią komandą.

Įdiekite PikePDF per pip

 pip install pikepdf

Nukopijuokite puslapius iš vieno PDF į kitą naudodami Python

Atvirojo kodo PikePDF biblioteka suteikia galimybę programinės įrangos kūrėjams perkelti puslapį iš vieno PDF į kitą naudojant tik kelias Python kodo eilutes. Kopijuojant puslapius iš vieno PDF objekto į kitą, tiksliniame PDF faile bus sukurta sekli šaltinio puslapio kopija, todėl puslapių modifikavimas neturės įtakos originaliems PDF dokumentams. Taip pat galima pakeisti konkrečius puslapius tinkintu turiniu. Taip pat galima kopijuoti tam tikro PDF puslapius.

Atidarykite ir manipuliuokite PDF dokumentais naudodami Python

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

PDF padalijimas ir sujungimas naudojant Python

PDF PikePDF biblioteka suteikia programinės įrangos kūrėjams galią pasiekti esamus PDF failus ir lengvai padalyti juos į kelis PDF failus. Dalindami PDF visi reikalaujame, kad naujuose PDF failuose būtų paskirties puslapiai. Biblioteka taip pat užtikrina, kad būtų perkeliami su kiekvienu puslapiu susieti duomenys, kad kiekvienas puslapis stovėtų atskirai. Biblioteka taip pat apėmė kelių PDF dokumentų sujungimą arba sujungimą į vieną. Taip pat galima pakeisti PDF puslapių tvarką, naudojant tik kelias kodo eilutes.

Padalinkite ir sujunkite PDF dokumentus naudodami Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Tvarkykite vaizdus PDF dokumente naudodami Python

PDF PikePDF biblioteka leidžia programinės įrangos kūrėjams lengvai tvarkyti vaizdus PDF faile naudojant Python komandas. Bibliotekoje yra keletas svarbių funkcijų, susijusių su vaizdų tvarkymu, pvz., vaizdų kopijavimas PDF puslapyje, PDF atidarymas ir peržiūra, vaizdų dydžio keitimas, vaizdų manipuliavimas PDF faile, vaizdų ištraukimas iš PDF, vaizdų keitimas, vaizdo ištrynimas iš PDF ir daug daugiau. .

Ištraukite vaizdą ir pakeiskite jį PDF formatu naudodami Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

PDF metaduomenų tvarkymas per Python

PDF metaduomenyse yra labai naudinga informacija apie PDF dokumentą, pvz., autoriaus vardas, sukūrimo ir modifikavimo data, raktiniai žodžiai, informacija apie autorių teises ir pan. PDF PikePDF biblioteka apima visas funkcijas, skirtas pasiekti ir skaityti metaduomenis, išgauti metaduomenis, ištrinti metaduomenų įrašus iš PDF dokumentų. Šiame kodo pavyzdyje parodyta, kaip iš PDF dokumentų išgauti metaduomenis.

Kaip išgauti PDF metaduomenis naudojant Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 Lietuvių