Open source Python-bibliotheek voor het converteren van pdf-bestanden
Met de gratis Python API kunnen ontwikkelaars PDF-bestanden exporteren, roteren, samenvoegen en samenvoegen, en gegevens en elementen uit PDF's extraheren.
pdfrw is een open source pure Python-bibliotheek waarmee softwareontwikkelaars PDF-bestanden kunnen lezen en schrijven zonder externe speciale software te installeren. pdfrw programmeerbibliotheek is erg eenvoudig te gebruiken en de broncode is goed gedocumenteerd, erg eenvoudig en gemakkelijk te begrijpen. De bibliotheek heeft goede Unicode-ondersteuning voor tekstreeksen in PDF's en de snelste pure Python PDF-parser.
pdfrw-bibliotheek biedt ondersteuning voor verschillende belangrijke PDF-bewerkingen, zoals het samenvoegen van PDF's, het wijzigen van metagegevens, het samenvoegen van meerdere PDF's, het extraheren van afbeeldingen, het afdrukken van PDF's, het roteren van PDF-pagina's, het maken van een nieuwe PDF, het toevoegen van een watermerk PDF-afbeelding en nog veel meer.
.
Aan de slag met pdfrw
pdfrw vereist Python 2.6, 2.7, 3.3, 3.4, 3.5 en 3.6. U kunt pdfrw installeren met pip. Gebruik de volgende opdracht om het te installeren.
Installeer pdfrw via pip
python -m pip install pdfrw
PDF-documenten maken via Python-bibliotheek
De pdfrw-bibliotheek biedt softwareontwikkelaars de mogelijkheid om met slechts een paar regels code Create PDF-documenten te maken in hun eigen Python-applicaties. De bibliotheek biedt ook ondersteuning voor het openen en wijzigen van bestaande PDF-bestanden. U kunt eenvoudig nieuwe pagina's en grafische componenten of tekstelementen invoegen in de bestaande PDF. pdfrw-bibliotheek biedt ondersteuning om de pagina's in PDF-bestanden die u inleest te vinden en om een reeks pagina's terug te schrijven naar een nieuw PDF-bestand.
PDF-documenten maken en wijzigen via Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF-bestanden lezen via Python
pdfrw-bibliotheek geeft softwareontwikkelaars gemakkelijk toegang tot verschillende delen van PDF-documenten in Python-toepassingen en deze lezen. Het geeft eenvoudig toegang tot het volledige PDF-document. De bibliotheek ondersteunt het ophalen van bestandsinformatie, grootte en meer. Het creëert een speciaal attribuut genaamd pagina's, waarmee gebruikers alle pagina's van een PDF-document kunnen weergeven. Hiermee kunt u een documentinformatie-object extraheren dat u kunt gebruiken om informatie zoals auteur, titel, enz.
PDF-bestanden openen en lezen via Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Metagegevens toevoegen of wijzigen
Met pdfrw kunnen softwareontwikkelaars metadata van PDF-bestanden toevoegen of wijzigen in hun eigen Python-applicaties. U kunt een enkel metadata-item in een PDF wijzigen, het resultaat naar een nieuwe PDF schrijven en meerdere bestanden opnemen en deze samenvoegen nadat u enkele onzinnige metadata aan het uitvoer-PDF-bestand hebt toegevoegd.
PDF-metagegevens wijzigen via Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF-documenten splitsen
Met pdfrw kunnen softwareontwikkelaars programmatisch PDF-documenten splitsen in hun applicaties. Een gebruiker kan een specifiek deel van een PDF-boek uitpakken of het in meerdere PDF's verdelen in plaats van ze in één bestand op te slaan. Het is heel eenvoudig met de pdfrw-bibliotheek, u hoeft alleen een invoerpad voor het PDF-bestand, het aantal pagina's dat u wilt extraheren en het uitvoerpad op te geven.
Splits PDF-bestand naar meerdere PDF's via Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')