Entwickeln Sie Apps für die Arbeit mit PDFs über die Python-Bibliothek
Open-Source-Python-API zum Aufteilen, Zusammenführen, Zuschneiden und Transformieren der Seiten von PDF-Dateien, Hinzufügen von benutzerdefinierten Daten und Passwörtern zu PDF.
PyPDF2 ist eine reine Open-Source-Python-Bibliothek, die die Möglichkeit bietet, mit PDF-Dateien in Python-Anwendungen ohne externe Abhängigkeiten zu arbeiten. Die Bibliothek bietet Unterstützung für zahlreiche wichtige PDF-Funktionen wie das Zusammenführen mehrerer PDF-Dateien, das Extrahieren des Inhalts einer PDF-Datei, das Drehen von PDF-Dateiseiten um einen Winkel, das Skalieren von PDF-Seiten, das Transformieren der Seiten von PDF-Dateien, das Extrahieren von Bildern aus PDF-Seiten und mehr viel mehr.
Die Open-Source-Programmierbibliothek PyPDF2 ist sehr einfach zu verwenden und der Quellcode ist gut dokumentiert und leicht verständlich. Die Bibliothek ermöglicht es Entwicklern, Metadaten von PDF-Dateien zu lesen und zu extrahieren, wie z. B. Seitenzahl, Autor, Ersteller, Zeitpunkt der Erstellung und letzten Aktualisierung usw. Die Bibliothek unterstützt auch das Verschlüsseln und Entschlüsseln von PDF-Dateien mit nur wenigen Zeilen Python-Code.
.
Erste Schritte mit PyPDF2
PyPDF2 ist nicht Teil der Python-Standardbibliothek, daher müssen Sie es selbst installieren. Der bevorzugte Weg, dies zu tun, ist die Verwendung von pip.
Installieren Sie PyPDF2 über Pip
python -m pip install pypdf2
Extrahieren Sie Text aus PDF über Python
Die PyPDF2-Bibliothek bietet Funktionen zum programmgesteuerten Extrahieren von Text aus PDF-Dateien über Python. Es ist nicht einfach, Daten aus einer PDF-Datei abzurufen, da die Art und Weise, wie PDF Informationen speichert, es nur schwer macht, dies zu erreichen. PyPDF2 erleichtert Entwicklern die Arbeit, indem es ihnen einfach zu verwendende integrierte Funktionen zum Abrufen von Informationen bietet. Sie können die Methode extractText() für das Seitenobjekt verwenden, um den Textinhalt der Seite abzurufen.
Text aus PDF über Python extrahieren
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Lesen von PDF-Dateien über Python
Die PyPDF2-Bibliothek bietet die Möglichkeit zum programmgesteuerten Extrahieren von Text aus PDF-Dateien über Python. Es ist nicht einfach, Daten aus einer PDF-Datei abzurufen, da die Art und Weise, wie PDF Informationen speichert, es nur schwer macht, dies zu erreichen. PyPDF2 erleichtert die Arbeit von Entwicklern, indem es ihnen einfach zu verwendende integrierte Funktionen zum Abrufen von Informationen zur Verfügung stellt. Sie können die Methode extractText() für das Seitenobjekt verwenden, um den Textinhalt der Seite abzurufen.
PDF-Datei über Python lesen
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF-Dokumente zusammenführen oder aufteilen
Waren Sie jemals in einer Situation, in der Sie zwei oder mehr PDF-Dateien zu einem einzigen Dokument zusammenführen mussten? Das Unternehmen muss oft mehrere PDF-Dateien zu einem einzigen Dokument zusammenführen. Die PyPDF2-Bibliothek bietet die Möglichkeit, PDF-Dateien mit nur wenigen Zeilen Python-Code zu kombinieren. Entwickler können große PDF-Dokumente je nach Bedarf auch problemlos in kleinere aufteilen. Entwickler können ganz einfach einen bestimmten Teil eines PDF-Buchs extrahieren oder es in mehrere PDFs aufteilen
PDF-Dateien über Python zusammenführen
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Metadaten aus PDF-Dateien extrahieren
Die PyPDF2-Bibliothek enthält Funktionen zum Extrahieren von Metadaten aus PDF-Dokumenten mithilfe einiger Python-Befehle. Sie können ganz einfach Informationen über den Autor, die Ersteller-App, die Anzahl der Seiten, den Titel des Dokuments und das Erstellungsdatum usw. erhalten. Sie können Metadaten von PDF-Dokumenten einfach extrahieren und nach Ihren Bedürfnissen verwenden.
Extrahieren Sie Metadaten aus PDF über Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)