Entwickeln Sie Apps für die Arbeit mit PDFs über die Python-Bibliothek

Open-Source-Python-API zum Aufteilen, Zusammenführen, Zuschneiden und Transformieren der Seiten von PDF-Dateien, Hinzufügen von benutzerdefinierten Daten und Passwörtern zu PDF.

PyPDF2 ist eine reine Open-Source-Python-Bibliothek, die die Möglichkeit bietet, mit PDF-Dateien in Python-Anwendungen ohne externe Abhängigkeiten zu arbeiten. Die Bibliothek bietet Unterstützung für zahlreiche wichtige PDF-Funktionen wie das Zusammenführen mehrerer PDF-Dateien, das Extrahieren des Inhalts einer PDF-Datei, das Drehen von PDF-Dateiseiten um einen Winkel, das Skalieren von PDF-Seiten, das Transformieren der Seiten von PDF-Dateien, das Extrahieren von Bildern aus PDF-Seiten und mehr viel mehr.

Die Open-Source-Programmierbibliothek PyPDF2 ist sehr einfach zu verwenden und der Quellcode ist gut dokumentiert und leicht verständlich. Die Bibliothek ermöglicht es Entwicklern, Metadaten von PDF-Dateien zu lesen und zu extrahieren, wie z. B. Seitenzahl, Autor, Ersteller, Zeitpunkt der Erstellung und letzten Aktualisierung usw. Die Bibliothek unterstützt auch das Verschlüsseln und Entschlüsseln von PDF-Dateien mit nur wenigen Zeilen Python-Code.

Auf einen Blick

Eine Übersicht über die Funktionen von PyPDF2.

Funktionsübersicht

PDF erzeugen
Ernte
PDF-Seiten umwandeln
PDFs teilen
PDFs zusammenführen
Hyperlinks einbetten
Kreise einfügen
Fügen Sie benutzerdefinierte Daten hinzu
Fügen Sie Formen hinzu
Unicode-Unterstützung
Einbettung von Schriftarten
PDF verschlüsseln
Bilder einbetten
Passwörter hinzufügen
Metadaten

PyPDF2

PyPDF2 unterstützt das PDF-Dateiformat sowie branchenübliche Formate für den Export.

Leser

Schriftsteller

TXT, HTML

PyPDF2

Plattformunabhängigkeit

PyPDF2 wird mit Python 2.6 und höher getestet.

Python 2.6 und höher

PyPDF2

Erste Schritte mit PyPDF2

PyPDF2 ist nicht Teil der Python-Standardbibliothek, daher müssen Sie es selbst installieren. Der bevorzugte Weg, dies zu tun, ist die Verwendung von pip.

Installieren Sie PyPDF2 über Pip

 python -m pip install pypdf2

Extrahieren Sie Text aus PDF über Python

Die PyPDF2-Bibliothek bietet Funktionen zum programmgesteuerten Extrahieren von Text aus PDF-Dateien über Python. Es ist nicht einfach, Daten aus einer PDF-Datei abzurufen, da die Art und Weise, wie PDF Informationen speichert, es nur schwer macht, dies zu erreichen. PyPDF2 erleichtert Entwicklern die Arbeit, indem es ihnen einfach zu verwendende integrierte Funktionen zum Abrufen von Informationen bietet. Sie können die Methode extractText() für das Seitenobjekt verwenden, um den Textinhalt der Seite abzurufen.

Text aus PDF über Python extrahieren

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Lesen von PDF-Dateien über Python

Die PyPDF2-Bibliothek bietet die Möglichkeit zum programmgesteuerten Extrahieren von Text aus PDF-Dateien über Python. Es ist nicht einfach, Daten aus einer PDF-Datei abzurufen, da die Art und Weise, wie PDF Informationen speichert, es nur schwer macht, dies zu erreichen. PyPDF2 erleichtert die Arbeit von Entwicklern, indem es ihnen einfach zu verwendende integrierte Funktionen zum Abrufen von Informationen zur Verfügung stellt. Sie können die Methode extractText() für das Seitenobjekt verwenden, um den Textinhalt der Seite abzurufen.

PDF-Datei über Python lesen

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

PDF-Dokumente zusammenführen oder aufteilen

Waren Sie jemals in einer Situation, in der Sie zwei oder mehr PDF-Dateien zu einem einzigen Dokument zusammenführen mussten? Das Unternehmen muss oft mehrere PDF-Dateien zu einem einzigen Dokument zusammenführen. Die PyPDF2-Bibliothek bietet die Möglichkeit, PDF-Dateien mit nur wenigen Zeilen Python-Code zu kombinieren. Entwickler können große PDF-Dokumente je nach Bedarf auch problemlos in kleinere aufteilen. Entwickler können ganz einfach einen bestimmten Teil eines PDF-Buchs extrahieren oder es in mehrere PDFs aufteilen

PDF-Dateien über Python zusammenführen

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Metadaten aus PDF-Dateien extrahieren

Die PyPDF2-Bibliothek enthält Funktionen zum Extrahieren von Metadaten aus PDF-Dokumenten mithilfe einiger Python-Befehle. Sie können ganz einfach Informationen über den Autor, die Ersteller-App, die Anzahl der Seiten, den Titel des Dokuments und das Erstellungsdatum usw. erhalten. Sie können Metadaten von PDF-Dokumenten einfach extrahieren und nach Ihren Bedürfnissen verwenden.

Extrahieren Sie Metadaten aus PDF über Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)