Open Source Python-bibliotek for konvertering av PDF-filer
Gratis Python API lar utviklere eksportere, rotere, slå sammen og slå sammen PDF-filer, trekke ut data og elementer fra PDF-er.
pdfrw er et åpen kildekode rent Python-bibliotek som gir programvareutviklere til å lese og skrive PDF-filer uten å installere ekstern spesialprogramvare. pdfrw-programmeringsbiblioteket er veldig enkelt å bruke og kildekoden er godt dokumentert, veldig enkel og lett å forstå. Biblioteket har inkludert riktig Unicode-støtte for tekststrenger i PDF-er, så vel som den raskeste rene Python PDF-parseren.
pdfrw-biblioteket inkluderer støtte for flere viktige PDF-operasjoner som å slå sammen PDF-er, endre metadata, sette sammen flere PDF-filer, trekke ut bilder, PDF-utskrift, rotere PDF-sider, lage en ny PDF, legge til et vannmerke PDF-bilde og mange flere.
.
Komme i gang med pdfrw
pdfrw krever Python 2.6, 2.7, 3.3, 3.4, 3.5 og 3.6. Du kan installere pdfrw ved å bruke pip. Bruk følgende kommando for å installere den.
Installer pdfrw via pip
python -m pip install pdfrw
Lag PDF-dokumenter via Python Library
pdfrw-biblioteket gir programvareutviklere muligheten til å lage Lag PDF-dokumenter i sine egne Python-applikasjoner med bare et par linjer med kode. Biblioteket gir også støtte for å få tilgang til og endre eksisterende PDF-filer. Du kan enkelt sette inn nye sider så vel som grafikkkomponenter eller tekstelementer i den eksisterende PDF-filen. pdfrw-biblioteket gir støtte for å finne sidene i PDF-filer du leser i, og for å skrive et sett med sider tilbake til en ny PDF-fil.
Opprett og endre PDF-dokumenter via Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Lese PDF-filer via Python
pdfrw-biblioteket gir programvareutviklere enkel tilgang til og lese ulike deler av PDF-dokumenter i Python-applikasjoner. Det gir enkel tilgang til hele PDF-dokumentet. Biblioteket støtter henting av filinformasjon, størrelse og mer. Den oppretter et spesielt attributt kalt sider, som lar brukere liste alle sidene i et PDF-dokument. Den lar deg trekke ut et dokumentinformasjonsobjekt som du kan bruke til å trekke ut informasjon som forfatter, tittel, etc.
Få tilgang til og les PDF-filer via Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Legge til eller endre metadata
pdfrw lar programvareutviklere legge til eller endre metadata av PDF-filer i sine egne Python-applikasjoner. Du kan endre et enkelt metadataelement i en PDF, skrive resultatet til en ny PDF, i tillegg til å inkludere flere filer og sette dem sammen etter å ha lagt til noen useriøse metadata til PDF-utdatafilen.
Endre PDF-metadata via Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Splitting av PDF-dokumenter
pdfrw lar programvareutviklere programmere dele PDF-dokumenter i applikasjonene sine. En bruker kan kreve å trekke ut en bestemt del av en PDF-bok eller dele den inn i flere PDF-er i stedet for å lagre dem i én fil. Det er veldig enkelt med pdfrw-biblioteket, du trenger bare å oppgi en PDF-filbane for input, antall sider du vil trekke ut og utdatabanen.
Del PDF-fil til flere PDF-filer via Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')