Udvikl apps til at arbejde med PDF'er via Python Library
Open Source Python API, der er i stand til at opdele, flette, beskære og transformere siderne i PDF-filer, føje tilpassede data og adgangskoder til PDF.
PyPDF2 er et open source rent Python-bibliotek, der giver mulighed for at arbejde med PDF-filer inde i Python-applikationer uden nogen eksterne afhængigheder. Biblioteket har inkluderet understøttelse af adskillige vigtige PDF-funktioner, såsom at flette flere PDF-filer, udtrække indholdet af PDF-fil, rotere PDF-filsider i en vinkel, skalering af PDF-sider, transformation af PDF-filers sider, udtrækning af billeder fra PDF-sider og mange flere.
Open source-programmeringsbiblioteket PyPDF2 er meget let at bruge, og kildekoden er veldokumenteret og let at forstå. Biblioteket gør det muligt for udviklere at læse og udtrække PDF-filers metadata såsom antal sider, forfatter, skaber, oprettet og sidst opdateret tidspunkt osv. Biblioteket understøtter også kryptering og dekryptering af PDF-filer med blot et par linjer Python-kode.
.
Kom godt i gang med PyPDF2
PyPDF2 kommer ikke som en del af Python Standard Library, så du bliver nødt til at installere det selv. Den foretrukne måde at gøre det på er at bruge pip.
Installer PyPDF2 via pip
python -m pip install pypdf2
Uddrag tekst fra PDF via Python
PyPDF2-biblioteket giver mulighed for programmatisk at udtrække tekst fra PDF-filer via Python. Det er ikke let at hente data fra en PDF-fil, fordi den måde, PDF gemmer information på, gør det svært at opnå det. PyPDF2 gør det nemt for udviklere at arbejde ved at give dem brugervenlige indbyggede funktioner til at hente information. De kan bruge metoden extractText() på sideobjektet for at få sidens tekstindhold.
Uddrag tekst fra PDF via Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Læsning af PDF-filer via Python
PyPDF2-biblioteket giver mulighed for programmatisk at udtrække tekst fra PDF-filer via Python. Det er ikke let at hente data fra en PDF-fil, fordi den måde, PDF gemmer information på, gør det svært at opnå det. PyPDF2 gør udvikleres job nemme ved at give dem brugervenlige indbyggede funktioner til at hente information. De kan bruge metoden extractText() på sideobjektet for at få sidens tekstindhold.
Læser PDF-fil via Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Flet eller opdel PDF-dokumenter
Har du nogensinde været i en situation, hvor du havde brug for at flette to eller flere PDF-filer til et enkelt dokument? Organisationen kræver ofte at flette flere PDF-filer til et enkelt dokument. PyPDF2-biblioteket giver mulighed for at kombinere PDF-filer med blot et par linjer Python-kode. Udviklere kan også nemt opdele store PDF-dokumenter i mindre efter deres behov. Udviklere kan nemt udtrække en bestemt del af en PDF-bog eller opdele den i flere PDF-filer
Flet PDF-filer via Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Udtræk metadata fra PDF-filer
PyPDF2-biblioteket har inkluderet funktionalitet til at udtrække metadata fra PDF-dokumenter ved at bruge et par Python-kommandoer. Du kan nemt få information om forfatteren, skaberappen, antal sider, dokumenttitel og oprettelsesdatoer osv. Du kan nemt udtrække metadata af PDF-dokumenter og bruge dem efter dine behov.
Uddrag Metadata fra PDF via Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)