Développer des applications pour travailler avec des PDF via la bibliothèque Python

API Python Open Source capable de fractionner, fusionner, recadrer et transformer les pages de fichiers PDF, ajouter des données personnalisées et des mots de passe au PDF.

PyPDF2 est une bibliothèque Python pure open source qui offre la possibilité de travailler avec des fichiers PDF dans des applications Python sans aucune dépendance externe. La bibliothèque prend en charge de nombreuses fonctionnalités PDF importantes telles que la fusion de plusieurs fichiers PDF, l'extraction du contenu d'un fichier PDF, la rotation des pages d'un fichier PDF d'un angle, la mise à l'échelle des pages PDF, la transformation des pages de fichiers PDF, l'extraction d'images à partir de pages PDF et beaucoup plus.

La bibliothèque de programmation open source PyPDF2 est très facile à utiliser et le code source est bien documenté et facile à comprendre. La bibliothèque permet aux développeurs de lire et d'extraire les métadonnées des fichiers PDF telles que le nombre de pages, l'auteur, le créateur, l'heure de création et de dernière mise à jour, etc. La bibliothèque prend également en charge le cryptage et le décryptage des fichiers PDF avec seulement quelques lignes de code Python.

En bref

Un aperçu des fonctionnalités de PyPDF2.

Présentation des fonctionnalités

Créer un PDF
Recadrer
Transformer des pages PDF
Fractionner des PDF
Fusionner des PDF
Intégration d'hyperliens
Insérer des cercles
Ajouter des données personnalisées
Ajouter des formes
Prise en charge d'Unicode
Incorporation de polices
Crypter le PDF
Incorporer des images
Ajouter des mots de passe
Métadonnées

PyPDF2

PyPDF2 prend en charge le format de fichier PDF ainsi que les formats standard de l'industrie pour l'exportation.

Lecteur

Écrivain

TXT, HTML

PyPDF2

Indépendance de la plate-forme

PyPDF2 est testé avec Python 2.6 et supérieur.

Python 2.6 et supérieur

PyPDF2

Premiers pas avec PyPDF2

PyPDF2 ne fait pas partie de la bibliothèque standard Python, vous devrez donc l'installer vous-même. La meilleure façon de le faire est d'utiliser pip.

Installer PyPDF2 via pip

 python -m pip install pypdf2

Extraire le texte d'un PDF via Python

La bibliothèque PyPDF2 offre la possibilité d'extraire par programmation du texte à partir de fichiers PDF via Python. Il n'est pas facile de récupérer des données à partir d'un fichier PDF car la façon dont le PDF stocke les informations rend difficile son obtention. Le PyPDF2 facilite le travail des développeurs en leur fournissant des fonctions intégrées faciles à utiliser pour récupérer des informations. Ils peuvent utiliser la méthode extractText() sur l'objet page pour obtenir le contenu textuel de la page.

Extraire du texte d'un PDF via Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Lecture de fichiers PDF via Python

Lire un fichier PDF via Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

Fusionner ou diviser des documents PDF

Avez-vous déjà été dans une situation où vous deviez fusionner deux fichiers PDF ou plus en un seul document ? L'organisation a souvent besoin de fusionner plusieurs fichiers PDF en un seul document. La bibliothèque PyPDF2 offre la possibilité de combiner des fichiers PDF avec seulement quelques lignes de code Python. Les développeurs peuvent également diviser facilement des documents PDF volumineux en plus petits selon leurs besoins. Les développeurs peuvent facilement extraire une partie spécifique d'un livre PDF ou la diviser en plusieurs PDF

Fusionner des fichiers PDF via Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Extraire les métadonnées des fichiers PDF

La bibliothèque PyPDF2 a inclus une fonctionnalité pour extraire les métadonnées des documents PDF à l'aide de quelques commandes Python. Vous pouvez facilement obtenir des informations sur l'auteur, l'application de création, le nombre de pages, le titre du document et les dates de création, etc. Vous pouvez facilement extraire les métadonnées des documents PDF et les utiliser selon vos besoins.

Extraire les métadonnées du PDF via Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)