1. Produkter
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Udvikl apps til at arbejde med PDF'er via Python Library

Open Source Python API, der er i stand til at opdele, flette, beskære og transformere siderne i PDF-filer, føje tilpassede data og adgangskoder til PDF.

PyPDF2 er et open source rent Python-bibliotek, der giver mulighed for at arbejde med PDF-filer inde i Python-applikationer uden nogen eksterne afhængigheder. Biblioteket har inkluderet understøttelse af adskillige vigtige PDF-funktioner, såsom at flette flere PDF-filer, udtrække indholdet af PDF-fil, rotere PDF-filsider i en vinkel, skalering af PDF-sider, transformation af PDF-filers sider, udtrækning af billeder fra PDF-sider og mange flere.

Open source-programmeringsbiblioteket PyPDF2 er meget let at bruge, og kildekoden er veldokumenteret og let at forstå. Biblioteket gør det muligt for udviklere at læse og udtrække PDF-filers metadata såsom antal sider, forfatter, skaber, oprettet og sidst opdateret tidspunkt osv. Biblioteket understøtter også kryptering og dekryptering af PDF-filer med blot et par linjer Python-kode.

.

Previous Next

Kom godt i gang med PyPDF2

PyPDF2 kommer ikke som en del af Python Standard Library, så du bliver nødt til at installere det selv. Den foretrukne måde at gøre det på er at bruge pip.

Installer PyPDF2 via pip

 python -m pip install pypdf2  

Uddrag tekst fra PDF via Python

PyPDF2-biblioteket giver mulighed for programmatisk at udtrække tekst fra PDF-filer via Python. Det er ikke let at hente data fra en PDF-fil, fordi den måde, PDF gemmer information på, gør det svært at opnå det. PyPDF2 gør det nemt for udviklere at arbejde ved at give dem brugervenlige indbyggede funktioner til at hente information. De kan bruge metoden extractText() på sideobjektet for at få sidens tekstindhold.

Uddrag tekst fra PDF via Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Læsning af PDF-filer via Python

PyPDF2-biblioteket giver mulighed for programmatisk at udtrække tekst fra PDF-filer via Python. Det er ikke let at hente data fra en PDF-fil, fordi den måde, PDF gemmer information på, gør det svært at opnå det. PyPDF2 gør udvikleres job nemme ved at give dem brugervenlige indbyggede funktioner til at hente information. De kan bruge metoden extractText() på sideobjektet for at få sidens tekstindhold.

Læser PDF-fil via Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Flet eller opdel PDF-dokumenter

Har du nogensinde været i en situation, hvor du havde brug for at flette to eller flere PDF-filer til et enkelt dokument? Organisationen kræver ofte at flette flere PDF-filer til et enkelt dokument. PyPDF2-biblioteket giver mulighed for at kombinere PDF-filer med blot et par linjer Python-kode. Udviklere kan også nemt opdele store PDF-dokumenter i mindre efter deres behov. Udviklere kan nemt udtrække en bestemt del af en PDF-bog eller opdele den i flere PDF-filer

Flet PDF-filer via Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Udtræk metadata fra PDF-filer

PyPDF2-biblioteket har inkluderet funktionalitet til at udtrække metadata fra PDF-dokumenter ved at bruge et par Python-kommandoer. Du kan nemt få information om forfatteren, skaberappen, antal sider, dokumenttitel og oprettelsesdatoer osv. Du kan nemt udtrække metadata af PDF-dokumenter og bruge dem efter dine behov.

 

Uddrag Metadata fra PDF via Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Dansk