Utvikle apper for å jobbe med PDF-filer via Python Library
Open Source Python API som kan splitte, slå sammen, beskjære og transformere sidene til PDF-filer, legge til egendefinerte data og passord til PDF.
PyPDF2 er et åpen kildekode rent Python-bibliotek som gir muligheten til å jobbe med PDF-filer i Python-applikasjoner uten eksterne avhengigheter. Biblioteket har inkludert støtte for en rekke viktige PDF-funksjoner som å slå sammen flere PDF-filer, trekke ut innholdet i PDF-filen, rotere PDF-filsider i en vinkel, skalere PDF-sider, transformere sidene i PDF-filer, trekke ut bilder fra PDF-sider og mange flere.
Åpen kildekode-programmeringsbiblioteket PyPDF2 er veldig enkelt å bruke og kildekoden er godt dokumentert og lett å forstå. Biblioteket gjør det mulig for utviklere å lese og trekke ut PDF-filers metadata som antall sider, forfatter, skaper, opprettet og sist oppdatert tid, etc. Biblioteket støtter også kryptering og dekryptering av PDF-filer med bare et par linjer med Python-kode.
.
Komme i gang med PyPDF2
PyPDF2 kommer ikke som en del av Python Standard Library, så du må installere det selv. Den foretrukne måten å gjøre det på er å bruke pip.
Installer PyPDF2 via pip
python -m pip install pypdf2
Trekk ut tekst fra PDF via Python
PyPDF2-biblioteket gir mulighet for programmatisk uttrekking av tekst fra PDF-filer via Python. Det er ikke lett å hente data fra en PDF-fil fordi måten PDF lagrer informasjon på gjør det vanskelig å oppnå det. PyPDF2 gjør utviklere jobben enkel ved å gi dem brukervennlige innebygde funksjoner for å hente informasjon. De kan bruke metoden extractText() på sideobjektet for å få tekstinnholdet på siden.
Trekk ut tekst fra PDF via Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Lese PDF-filer via Python
PyPDF2-biblioteket gir mulighet for programmatisk å trekke ut tekst fra PDF-filer via Python. Det er ikke lett å hente data fra en PDF-fil fordi måten PDF lagrer informasjon på gjør det vanskelig å oppnå det. PyPDF2 gjør utviklernes jobber enkle ved å gi dem brukervennlige innebygde funksjoner for å hente informasjon. De kan bruke metoden extractText() på sideobjektet for å få tekstinnholdet på siden.
Leser PDF-fil via Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Slå sammen eller del opp PDF-dokumenter
Har du noen gang vært i en situasjon der du trengte å slå sammen to eller flere PDF-filer til ett enkelt dokument? Organisasjonen krever ofte å slå sammen flere PDF-filer til ett enkelt dokument. PyPDF2-biblioteket gir muligheten til å kombinere PDF-filer med bare et par linjer med Python-kode. Utviklere kan også enkelt dele store PDF-dokumenter i mindre i henhold til deres behov. Utviklere kan enkelt trekke ut en bestemt del av en PDF-bok eller dele den inn i flere PDF-er
Slå sammen PDF-filer via Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Trekk ut metadata fra PDF-filer
PyPDF2-biblioteket har inkludert funksjonalitet for å trekke ut metadata fra PDF-dokumenter ved å bruke et par Python-kommandoer. Du kan enkelt få informasjon om forfatteren, skaperappen, antall sider, dokumenttittel, og opprettelsesdatoer osv. Du kan enkelt trekke ut metadata av PDF-dokumenter og bruke det etter dine behov.
Trekk ut metadata fra PDF via Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)