1. Produkter
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Utvikle apper for å jobbe med PDF-filer via Python Library

Open Source Python API som kan splitte, slå sammen, beskjære og transformere sidene til PDF-filer, legge til egendefinerte data og passord til PDF.

PyPDF2 er et åpen kildekode rent Python-bibliotek som gir muligheten til å jobbe med PDF-filer i Python-applikasjoner uten eksterne avhengigheter. Biblioteket har inkludert støtte for en rekke viktige PDF-funksjoner som å slå sammen flere PDF-filer, trekke ut innholdet i PDF-filen, rotere PDF-filsider i en vinkel, skalere PDF-sider, transformere sidene i PDF-filer, trekke ut bilder fra PDF-sider og mange flere.

Åpen kildekode-programmeringsbiblioteket PyPDF2 er veldig enkelt å bruke og kildekoden er godt dokumentert og lett å forstå. Biblioteket gjør det mulig for utviklere å lese og trekke ut PDF-filers metadata som antall sider, forfatter, skaper, opprettet og sist oppdatert tid, etc. Biblioteket støtter også kryptering og dekryptering av PDF-filer med bare et par linjer med Python-kode.

.

Previous Next

Komme i gang med PyPDF2

PyPDF2 kommer ikke som en del av Python Standard Library, så du må installere det selv. Den foretrukne måten å gjøre det på er å bruke pip.

Installer PyPDF2 via pip

 python -m pip install pypdf2  

Trekk ut tekst fra PDF via Python

PyPDF2-biblioteket gir mulighet for programmatisk uttrekking av tekst fra PDF-filer via Python. Det er ikke lett å hente data fra en PDF-fil fordi måten PDF lagrer informasjon på gjør det vanskelig å oppnå det. PyPDF2 gjør utviklere jobben enkel ved å gi dem brukervennlige innebygde funksjoner for å hente informasjon. De kan bruke metoden extractText() på sideobjektet for å få tekstinnholdet på siden.

Trekk ut tekst fra PDF via Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Lese PDF-filer via Python

PyPDF2-biblioteket gir mulighet for programmatisk å trekke ut tekst fra PDF-filer via Python. Det er ikke lett å hente data fra en PDF-fil fordi måten PDF lagrer informasjon på gjør det vanskelig å oppnå det. PyPDF2 gjør utviklernes jobber enkle ved å gi dem brukervennlige innebygde funksjoner for å hente informasjon. De kan bruke metoden extractText() på sideobjektet for å få tekstinnholdet på siden.

Leser PDF-fil via Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Slå sammen eller del opp PDF-dokumenter

Har du noen gang vært i en situasjon der du trengte å slå sammen to eller flere PDF-filer til ett enkelt dokument? Organisasjonen krever ofte å slå sammen flere PDF-filer til ett enkelt dokument. PyPDF2-biblioteket gir muligheten til å kombinere PDF-filer med bare et par linjer med Python-kode. Utviklere kan også enkelt dele store PDF-dokumenter i mindre i henhold til deres behov. Utviklere kan enkelt trekke ut en bestemt del av en PDF-bok eller dele den inn i flere PDF-er

Slå sammen PDF-filer via Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Trekk ut metadata fra PDF-filer

PyPDF2-biblioteket har inkludert funksjonalitet for å trekke ut metadata fra PDF-dokumenter ved å bruke et par Python-kommandoer. Du kan enkelt få informasjon om forfatteren, skaperappen, antall sider, dokumenttittel, og opprettelsesdatoer osv. Du kan enkelt trekke ut metadata av PDF-dokumenter og bruke det etter dine behov.

 

Trekk ut metadata fra PDF via Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Norsk