Python-bibliotek med öppen källkod för konvertering av PDF-filer
Gratis Python API låter utvecklare exportera, rotera, slå samman och sammanfoga PDF-filer, extrahera data och element från PDF-filer.
pdfrw är ett rent Python-bibliotek med öppen källkod som ger mjukvaruutvecklare att läsa och skriva PDF-filer utan att installera någon extern specialprogramvara. pdfrw-programmeringsbiblioteket är väldigt enkeltatt använda och källkoden är väldokumenterad, väldigt enkel och lätt att förstå. Biblioteket har inkluderat korrekt Unicode-stöd för textsträngar i PDF-filer såväl som den snabbaste rena Python PDF-parsern.
pdfrw-biblioteket innehåller stöd för flera viktiga PDF-operationer som att slå samman PDF-filer, ändra metadata, sammanfoga flera PDF-filer, extrahera bilder, PDF-utskrift, Rotera PDF-sidor, Skapa en ny PDF, Lägga till en vattenstämpel PDF-bild och många fler.
.
Komma igång med pdfrw
pdfrw kräver Python 2.6, 2.7, 3.3, 3.4, 3.5 och 3.6. Du kan installera pdfrw med pip. Använd följande kommando för att installera det.
Installera pdfrw via pip
python -m pip install pdfrw
Skapa PDF-dokument via Python Library
pdfrw-biblioteket ger mjukvaruutvecklare möjligheten att skapa Skapa PDF-dokument i sina egna Python-applikationer med bara ett par rader kod. Biblioteket ger också stöd för att komma åt och ändra befintliga PDF-filer. Du kan enkelt infoga nya sidor såväl som grafikkomponenter eller textelement i den befintliga PDF-filen. pdfrw-biblioteket ger stöd för att hitta sidorna i PDF-filer du läser in och för att skriva en uppsättning sidor tillbaka till en ny PDF-fil.
Skapa och ändra PDF-dokument via Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Läsa PDF-filer via Python
pdfrw-biblioteket ger mjukvaruutvecklare att enkelt komma åt och läsa olika delar av PDF-dokument i Python-applikationer. Det ger enkel åtkomst till hela PDF-dokumentet. Biblioteket stöder hämtning av filinformation, storlek och mer. Den skapar ett speciellt attribut som heter sidor, vilket gör att användare kan lista alla sidor i ett PDF-dokument. Det låter dig extrahera ett dokumentinformationsobjekt som du kan använda för att dra ut information som författare, titel, etc.
Få åtkomst till och läs PDF-filer via Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Lägga till eller ändra metadata
pdfrw tillåter mjukvaruutvecklare att lägga till eller ändra metadata för PDF-filer i sina egna Python-applikationer. Du kan ändra ett enstaka metadataobjekt i en PDF, skriva resultatet till en ny PDF samt göra att inkludera flera filer och sammanfoga dem efter att ha lagt till lite meningslös metadata till den utgående PDF-filen.
Ändra PDF-metadata via Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Dela PDF-dokument
pdfrw tillåter programutvecklare att programmatiskt dela PDF-dokument i sina applikationer. En användare kan behöva extrahera en specifik del av en PDF-bok eller dela upp den i flera PDF-filer istället för att lagra dem i en fil. Det är väldigt enkelt med pdfrw-biblioteket, du behöver bara ange en sökväg till PDF-filen, antalet sidor som du vill extrahera och utdatasökvägen.
Dela PDF-fil till flera PDF-filer via Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')