1. Des produits
  2.   PDF
  3.   Python
  4.   Pdfrw
 
  

Bibliothèque Python Open Source pour la conversion de fichiers PDF

L'API Python gratuite permet aux développeurs d'exporter, de faire pivoter, de fusionner et de concaténer des fichiers PDF, d'extraire des données et des éléments à partir de PDF.

pdfrw est une bibliothèque Python pure open source qui permet aux développeurs de logiciels de lire et d'écrire des fichiers PDF sans installer de logiciel spécial externe. La bibliothèque de programmation pdfrw est très simple à utiliser et le code source est bien documenté, très simple et facile à comprendre. La bibliothèque a inclus une prise en charge Unicode appropriée pour les chaînes de texte dans les PDF ainsi que l'analyseur PDF Python pur le plus rapide.

La bibliothèque pdfrw prend en charge plusieurs opérations PDF importantes telles que la fusion de PDF, la modification de métadonnées, la concaténation de plusieurs PDF, l'extraction d'images, l'impression PDF, la rotation de pages PDF, la création d'un nouveau PDF, l'ajout d'une image PDF en filigrane, etc.

.

Previous Next

Premiers pas avec pdfrw

pdfrw nécessite Python 2.6, 2.7, 3.3, 3.4, 3.5 et 3.6. Vous pouvez installer pdfrw en utilisant pip. Veuillez utiliser la commande suivante pour l'installer.

Installer pdfrw via pip

 python -m pip install pdfrw  

Créer des documents PDF via la bibliothèque Python

La bibliothèque pdfrw offre aux développeurs de logiciels la possibilité de créer des documents PDF dans leurs propres applications Python avec seulement quelques lignes de code. La bibliothèque fournit également un support pour accéder et modifier les fichiers PDF existants. Vous pouvez facilement insérer de nouvelles pages ainsi que des composants graphiques ou des éléments de texte dans le PDF existant. La bibliothèque pdfrw prend en charge la recherche des pages dans les fichiers PDF que vous lisez et la réécriture d'un ensemble de pages dans un nouveau fichier PDF.

Créer et modifier des documents PDF via Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Lecture de fichiers PDF via Python

La bibliothèque pdfrw permet aux développeurs de logiciels d'accéder et de lire facilement différentes parties de documents PDF dans les applications Python. Il donne un accès facile à l'ensemble du document PDF. La bibliothèque prend en charge la récupération des informations sur les fichiers, leur taille, etc. Il crée un attribut spécial nommé pages, qui permet aux utilisateurs de répertorier toutes les pages d'un document PDF. Il vous permet d'extraire un objet d'information de document que vous pouvez utiliser pour extraire des informations telles que l'auteur, le titre, etc.

Accéder et lire des fichiers PDF via Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Ajouter ou modifier des métadonnées

pdfrw permet aux développeurs de logiciels d'ajouter ou de modifier des métadonnées de fichiers PDF dans leurs propres applications Python. Vous pouvez modifier un seul élément de métadonnées dans un PDF, écrire le résultat dans un nouveau PDF et inclure plusieurs fichiers et les concaténer après avoir ajouté des métadonnées absurdes au fichier PDF de sortie.

Modifier les métadonnées PDF via Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Fractionner des documents PDF

pdfrw permet aux développeurs de logiciels de fractionner par programmation des documents PDF dans leurs applications. Un utilisateur peut avoir besoin d'extraire une partie spécifique d'un livre PDF ou de le diviser en plusieurs fichiers PDF au lieu de les stocker dans un seul fichier. C'est très simple avec la bibliothèque pdfrw, il vous suffit de fournir un chemin d'accès au fichier PDF d'entrée, le nombre de pages que vous souhaitez extraire et le chemin de sortie.

Diviser un fichier PDF en plusieurs PDF via Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Français