1. Producten
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Apps ontwikkelen om met PDF's te werken via Python Library

Open Source Python API die pagina's van PDF-bestanden kan splitsen, samenvoegen, bijsnijden en transformeren, aangepaste gegevens en wachtwoorden aan PDF toevoegen.

PyPDF2 is een open source pure Python-bibliotheek die de mogelijkheid biedt om met PDF-bestanden in Python-applicaties te werken zonder externe afhankelijkheden. De bibliotheek biedt ondersteuning voor tal van belangrijke PDF-functies, zoals het samenvoegen van meerdere PDF-bestanden, het extraheren van de inhoud van het PDF-bestand, het roteren van PDF-bestandspagina's onder een hoek, het schalen van PDF-pagina's, het transformeren van de pagina's van PDF-bestanden, het extraheren van afbeeldingen uit PDF-pagina's en veel meer.

De open source programmeerbibliotheek PyPDF2 is zeer gemakkelijk te gebruiken en de broncode is goed gedocumenteerd en gemakkelijk te begrijpen. De bibliotheek stelt ontwikkelaars in staat om metadata van PDF-bestanden te lezen en te extraheren, zoals het aantal pagina's, auteur, maker, gemaakt en laatst bijgewerkte tijd, enz. De bibliotheek ondersteunt ook het coderen en decoderen van PDF-bestanden met slechts een paar regels Python-code.

.

Previous Next

Aan de slag met PyPDF2

PyPDF2 maakt geen deel uit van de Python Standard Library, dus je moet het zelf installeren. De beste manier om dit te doen is om pip te gebruiken.

PyPDF2 installeren via pip

 python -m pip install pypdf2  

Tekst uit PDF extraheren via Python

De PyPDF2-bibliotheek biedt de mogelijkheid voor het programmatisch extraheren van tekst uit PDF-bestanden via Python. Het is niet eenvoudig om gegevens uit een PDF-bestand op te halen, omdat de manier waarop PDF informatie opslaat het gewoon moeilijk maakt om dit te bereiken. De PyPDF2 maakt het werk van ontwikkelaars gemakkelijk door hen gebruiksvriendelijke ingebouwde functies te bieden voor het ophalen van informatie. Ze kunnen de methode extractText() op het pagina-object gebruiken om de tekstinhoud van de pagina op te halen.

Tekst uit pdf extraheren via Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

PDF-bestanden lezen via Python

De PyPDF2-bibliotheek biedt de mogelijkheid voor het programmatisch extraheren van tekst uit PDF-bestanden via Python. Het is niet eenvoudig om gegevens uit een PDF-bestand op te halen, omdat de manier waarop PDF informatie opslaat het gewoon moeilijk maakt om dit te bereiken. De PyPDF2 maakt het werk van ontwikkelaars gemakkelijk door hen gebruiksvriendelijke ingebouwde functies te bieden voor het ophalen van informatie. Ze kunnen de methode extractText() op het pagina-object gebruiken om de tekstinhoud van de pagina op te halen.

PDF-bestand lezen via Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

PDF-documenten samenvoegen of splitsen

Ben je ooit in een situatie geweest waarin je twee of meer PDF-bestanden in één document moest samenvoegen? De organisatie vereist vaak het samenvoegen van meerdere PDF-bestanden in één document. De PyPDF2-bibliotheek biedt de mogelijkheid om PDF-bestanden te combineren met slechts een paar regels Python-code. Ontwikkelaars kunnen ook gemakkelijk grote PDF-documenten opsplitsen in kleinere, afhankelijk van hun behoeften. Ontwikkelaars kunnen eenvoudig een specifiek deel van een pdf-boek extraheren of in meerdere pdf's verdelen

PDF-bestanden samenvoegen via Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Metadata uit PDF-bestanden extraheren

De PyPDF2-bibliotheek heeft functionaliteit voor het extraheren van metagegevens uit PDF-documenten met behulp van een aantal Python-opdrachten. U kunt gemakkelijk informatie krijgen over de auteur, de maker-app, het aantal pagina's, de documenttitel en de aanmaakdatums, enz. U kunt eenvoudig metadata van PDF-documenten extraheren en gebruiken volgens uw behoeften.

 

Metadata uit PDF extraheren via Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Dutch