1. Producten
  2.   PDF
  3.   Python
  4.   Pdfrw
 
  

Open source Python-bibliotheek voor het converteren van pdf-bestanden

Met de gratis Python API kunnen ontwikkelaars PDF-bestanden exporteren, roteren, samenvoegen en samenvoegen, en gegevens en elementen uit PDF's extraheren.

pdfrw is een open source pure Python-bibliotheek waarmee softwareontwikkelaars PDF-bestanden kunnen lezen en schrijven zonder externe speciale software te installeren. pdfrw programmeerbibliotheek is erg eenvoudig te gebruiken en de broncode is goed gedocumenteerd, erg eenvoudig en gemakkelijk te begrijpen. De bibliotheek heeft goede Unicode-ondersteuning voor tekstreeksen in PDF's en de snelste pure Python PDF-parser.

pdfrw-bibliotheek biedt ondersteuning voor verschillende belangrijke PDF-bewerkingen, zoals het samenvoegen van PDF's, het wijzigen van metagegevens, het samenvoegen van meerdere PDF's, het extraheren van afbeeldingen, het afdrukken van PDF's, het roteren van PDF-pagina's, het maken van een nieuwe PDF, het toevoegen van een watermerk PDF-afbeelding en nog veel meer.

.

Previous Next

Aan de slag met pdfrw

pdfrw vereist Python 2.6, 2.7, 3.3, 3.4, 3.5 en 3.6. U kunt pdfrw installeren met pip. Gebruik de volgende opdracht om het te installeren.

Installeer pdfrw via pip

 python -m pip install pdfrw  

PDF-documenten maken via Python-bibliotheek

De pdfrw-bibliotheek biedt softwareontwikkelaars de mogelijkheid om met slechts een paar regels code Create PDF-documenten te maken in hun eigen Python-applicaties. De bibliotheek biedt ook ondersteuning voor het openen en wijzigen van bestaande PDF-bestanden. U kunt eenvoudig nieuwe pagina's en grafische componenten of tekstelementen invoegen in de bestaande PDF. pdfrw-bibliotheek biedt ondersteuning om de pagina's in PDF-bestanden die u inleest te vinden en om een reeks pagina's terug te schrijven naar een nieuw PDF-bestand.

PDF-documenten maken en wijzigen via Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

PDF-bestanden lezen via Python

pdfrw-bibliotheek geeft softwareontwikkelaars gemakkelijk toegang tot verschillende delen van PDF-documenten in Python-toepassingen en deze lezen. Het geeft eenvoudig toegang tot het volledige PDF-document. De bibliotheek ondersteunt het ophalen van bestandsinformatie, grootte en meer. Het creëert een speciaal attribuut genaamd pagina's, waarmee gebruikers alle pagina's van een PDF-document kunnen weergeven. Hiermee kunt u een documentinformatie-object extraheren dat u kunt gebruiken om informatie zoals auteur, titel, enz.

PDF-bestanden openen en lezen via Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Metagegevens toevoegen of wijzigen

Met pdfrw kunnen softwareontwikkelaars metadata van PDF-bestanden toevoegen of wijzigen in hun eigen Python-applicaties. U kunt een enkel metadata-item in een PDF wijzigen, het resultaat naar een nieuwe PDF schrijven en meerdere bestanden opnemen en deze samenvoegen nadat u enkele onzinnige metadata aan het uitvoer-PDF-bestand hebt toegevoegd.

PDF-metagegevens wijzigen via Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

PDF-documenten splitsen

Met pdfrw kunnen softwareontwikkelaars programmatisch PDF-documenten splitsen in hun applicaties. Een gebruiker kan een specifiek deel van een PDF-boek uitpakken of het in meerdere PDF's verdelen in plaats van ze in één bestand op te slaan. Het is heel eenvoudig met de pdfrw-bibliotheek, u hoeft alleen een invoerpad voor het PDF-bestand, het aantal pagina's dat u wilt extraheren en het uitvoerpad op te geven.

Splits PDF-bestand naar meerdere PDF's via Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Dutch