1. Produkti
  2.   PDF
  3.   Python
  4.   Pikepdf
 
  

Atvērtā pirmkoda Python bibliotēka, lai apstrādātu PDF failus

Bezmaksas Python API ļauj linearizēt PDF failus un piekļūt šifrētiem PDF failiem. Tā atbalsta PDF izveidi no jauna, lapu kopēšanu no viena PDF uz citu, PDF failu sadalīšanu vai sapludināšanu un daudz ko citu.

PikePDF ir ļoti vienkārša Python PDF bibliotēka, kas programmatūras izstrādātājiem ļauj strādāt ar PDF failiem Python lietojumprogrammās. Tā ir balstīta uz QPDF, jaudīgu PDF manipulāciju un labošanas bibliotēku. PikePDF ir PDF satura pārveidošanas bibliotēka un nodrošina zema līmeņa piekļuvi PDF failiem. Tas nozīmē, ka lietotājiem ir nepieciešamas zināšanas par PDF iekšējām funkcijām un zināšanas par PDF specifikācijām. Bibliotēka ir atvērtā pirmkoda un ir pieejama publiskai lietošanai saskaņā ar MIT licenci. Bibliotēka ir atvērtā pirmkoda, un tā ir pieejama saskaņā ar MPL-2.0 licenci.

PikePDF nodrošina atbalstu PDF failu linearizēšanai un piekļuvi šifrētiem PDF failiem. Tajā ir iekļauts ļoti jaudīgs ar PDF pārvaldību saistītu funkciju kopums, piemēram, PDF izveide no jauna, lapu kopēšana no viena PDF uz citu, PDF failu sadalīšana vai sapludināšana, attēlu vai teksta izvilkšana no PDF, satura aizstāšana PDF failā, PDF labošanas atbalsts, lappuse. iestatījumu atbalsts, PDF metadatu pārvaldība, ar paroli aizsargāts, PDF XMP metadatu rediģēšana, esošo PDF failu pārveidošana un daudz kas cits.

.

Previous Next

Darba sākšana ar PikePDF

PikePDF nepieciešama Python 3.6 un jaunāka versija. Jūs varat instalēt PikePDF, izmantojot pip. Lūdzu, izmantojiet šo komandu, lai to instalētu.

Instalējiet PikePDF, izmantojot pip

 pip install pikepdf

Kopējiet lapas no viena PDF uz citu, izmantojot Python

Atvērtā pirmkoda PikePDF bibliotēka nodrošina iespēju, kas programmatūras izstrādātājiem ļauj kopēt lapu no viena PDF uz citu, izmantojot tikai dažas Python koda rindas. Kopējot lapas starp PDF objektiem, tiks izveidota sekla avota lapas kopija mērķa PDF failā, un tāpēc lapu modificēšana neietekmēs sākotnējos PDF dokumentus. Ir iespējams arī aizstāt noteiktas lapas ar pielāgotu saturu. Ir iespējams arī kopēt lapas konkrētā PDF failā.

Atvērt un manipulēt ar PDF dokumentiem, izmantojot Python

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

PDF sadalīšana un sapludināšana, izmantojot Python

PDF PikePDF bibliotēka sniedz programmatūras izstrādātājiem iespēju piekļūt esošajiem PDF failiem un viegli sadalīt tos vairākos PDF failos. Sadalot PDF, viss, ko mēs prasām, ir tas, ka jaunajiem PDF failiem ir jābūt galamērķa lapām. Bibliotēka arī nodrošina ar katru lapu saistīto datu pārsūtīšanu, lai katra lapa būtu pati par sevi. Bibliotēka ietvēra arī atbalstu vairāku PDF dokumentu sapludināšanai vai savienošanai vienā. Ir iespējams arī mainīt PDF lapu secību, izmantojot tikai dažas koda rindiņas.

Sadaliet un sapludiniet PDF dokumentus, izmantojot Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

Pārvaldiet attēlus PDF dokumentā, izmantojot Python

PDF PikePDF bibliotēka ļauj programmatūras izstrādātājiem viegli apstrādāt attēlus PDF failā, izmantojot Python komandas. Bibliotēkā ir iekļautas vairākas svarīgas funkcijas, kas saistītas ar attēlu apstrādi, piemēram, attēlu kopēšana PDF lapā, PDF atvēršana un skatīšana, attēlu lieluma maiņa, manipulēšana ar attēliem PDF failā, attēlu izvilkšana no PDF, attēlu aizstāšana, attēla dzēšana no PDF un daudzas citas. .

Izņemiet attēlu un nomainiet to PDF formātā, izmantojot Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

PDF metadatu apstrāde, izmantojot Python

PDF metadatos ir iekļauta ļoti noderīga informācija par PDF dokumentu, piemēram, autora vārds, izveides un modifikācijas datums, atslēgvārdi, informācija par autortiesībām utt. PDF PikePDF bibliotēkā ir iekļauta pilnīga funkcionalitāte metadatu piekļuvei un lasīšanai, metadatu iegūšanai, metadatu ierakstu dzēšanai no PDF dokumentiem. Šis koda piemērs parāda, kā izvilkt metadatus no PDF dokumentiem.

Kā iegūt PDF metadatus, izmantojot Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 Latviski