Développer des applications pour travailler avec des PDF via la bibliothèque Python
API Python Open Source capable de fractionner, fusionner, recadrer et transformer les pages de fichiers PDF, ajouter des données personnalisées et des mots de passe au PDF.
PyPDF2 est une bibliothèque Python pure open source qui offre la possibilité de travailler avec des fichiers PDF dans des applications Python sans aucune dépendance externe. La bibliothèque prend en charge de nombreuses fonctionnalités PDF importantes telles que la fusion de plusieurs fichiers PDF, l'extraction du contenu d'un fichier PDF, la rotation des pages d'un fichier PDF d'un angle, la mise à l'échelle des pages PDF, la transformation des pages de fichiers PDF, l'extraction d'images à partir de pages PDF et beaucoup plus.
La bibliothèque de programmation open source PyPDF2 est très facile à utiliser et le code source est bien documenté et facile à comprendre. La bibliothèque permet aux développeurs de lire et d'extraire les métadonnées des fichiers PDF telles que le nombre de pages, l'auteur, le créateur, l'heure de création et de dernière mise à jour, etc. La bibliothèque prend également en charge le cryptage et le décryptage des fichiers PDF avec seulement quelques lignes de code Python.
.
Premiers pas avec PyPDF2
PyPDF2 ne fait pas partie de la bibliothèque standard Python, vous devrez donc l'installer vous-même. La meilleure façon de le faire est d'utiliser pip.
Installer PyPDF2 via pip
python -m pip install pypdf2
Extraire le texte d'un PDF via Python
La bibliothèque PyPDF2 offre la possibilité d'extraire par programmation du texte à partir de fichiers PDF via Python. Il n'est pas facile de récupérer des données à partir d'un fichier PDF car la façon dont le PDF stocke les informations rend difficile son obtention. Le PyPDF2 facilite le travail des développeurs en leur fournissant des fonctions intégrées faciles à utiliser pour récupérer des informations. Ils peuvent utiliser la méthode extractText() sur l'objet page pour obtenir le contenu textuel de la page.
Extraire du texte d'un PDF via Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Lecture de fichiers PDF via Python
La bibliothèque PyPDF2 offre la possibilité d'extraire par programmation du texte à partir de fichiers PDF via Python. Il n'est pas facile de récupérer des données à partir d'un fichier PDF car la façon dont le PDF stocke les informations rend difficile son obtention. Le PyPDF2 facilite le travail des développeurs en leur fournissant des fonctions intégrées faciles à utiliser pour récupérer des informations. Ils peuvent utiliser la méthode extractText() sur l'objet page pour obtenir le contenu textuel de la page.
Lire un fichier PDF via Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Fusionner ou diviser des documents PDF
Avez-vous déjà été dans une situation où vous deviez fusionner deux fichiers PDF ou plus en un seul document ? L'organisation a souvent besoin de fusionner plusieurs fichiers PDF en un seul document. La bibliothèque PyPDF2 offre la possibilité de combiner des fichiers PDF avec seulement quelques lignes de code Python. Les développeurs peuvent également diviser facilement des documents PDF volumineux en plus petits selon leurs besoins. Les développeurs peuvent facilement extraire une partie spécifique d'un livre PDF ou la diviser en plusieurs PDF
Fusionner des fichiers PDF via Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Extraire les métadonnées des fichiers PDF
La bibliothèque PyPDF2 a inclus une fonctionnalité pour extraire les métadonnées des documents PDF à l'aide de quelques commandes Python. Vous pouvez facilement obtenir des informations sur l'auteur, l'application de création, le nombre de pages, le titre du document et les dates de création, etc. Vous pouvez facilement extraire les métadonnées des documents PDF et les utiliser selon vos besoins.
Extraire les métadonnées du PDF via Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)