Sviluppa app per lavorare con i PDF tramite la libreria Python

API Python open source in grado di dividere, unire, ritagliare e trasformare le pagine dei file PDF, aggiungere dati personalizzati e password al PDF.

PyPDF2 è una libreria Python pura open source che offre la possibilità di lavorare con file PDF all'interno di applicazioni Python senza dipendenze esterne. La libreria include il supporto per numerose importanti funzionalità PDF come l'unione di più file PDF, l'estrazione del contenuto del file PDF, la rotazione di un angolo delle pagine dei file PDF, il ridimensionamento delle pagine PDF, la trasformazione delle pagine dei file PDF, l'estrazione di immagini dalle pagine PDF e molti altri.

La libreria di programmazione open source PyPDF2 è molto facile da usaree il codice sorgente è ben documentato e di facile comprensione. La libreria consente agli sviluppatori di leggere ed estrarre i metadati dei file PDF come il numero di pagine, l'autore, il creatore, l'ora creata e l'ultimo aggiornamento, ecc. La libreria supporta anche la crittografia e la decrittografia dei file PDF con solo un paio di righe di codice Python.

A prima vista

Una panoramica delle funzionalità di PyPDF2.

Panoramica delle caratteristiche

Crea PDF
Raccolto
Trasforma le pagine PDF
Dividi PDF
Unisci PDF
Incorporamento di collegamenti ipertestuali
Inserisci cerchi
Aggiungi dati personalizzati
Aggiungi forme
Supporto Unicode
Incorporamento dei caratteri
Cripta PDF
Incorpora immagini
Aggiungi password
Metadati

PyPDF2

PyPDF2 supporta il formato di file PDF e i formati standard del settore per l'esportazione.

Lettore

scrittore

TXT, HTML

PyPDF2

Indipendenza dalla piattaforma

PyPDF2 è testato con Python 2.6 e versioni successive.

Python 2.6 e versioni successive

PyPDF2

Guida introduttiva a PyPDF2

PyPDF2 non fa parte della Python Standard Library, quindi dovrai installarlo tu stesso. Il modo preferito per farlo è usare pip.

Installa PyPDF2 tramite pip

 python -m pip install pypdf2

Estrai testo da PDF tramite Python

La libreria PyPDF2 offre funzionalità per estrarre a livello di codice il testo dai file PDF tramite Python. Non è facile recuperare i dati da un file PDF perché il modo in cui il PDF memorizza le informazioni rende difficile ottenerlo. PyPDF2 semplifica il lavoro degli sviluppatori fornendo loro funzioni integrate facili da usare per il recupero delle informazioni. Possono utilizzare il metodo extractText() sull'oggetto della pagina per ottenere il contenuto del testo della pagina.

Estrai testo da PDF tramite Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Lettura di file PDF tramite Python

La libreria PyPDF2 offre la possibilità di estrarre a livello di codice il testo da file PDF tramite Python. Non è facile recuperare i dati da un file PDF perché il modo in cui il PDF memorizza le informazioni rende difficile ottenerlo. PyPDF2 semplifica il lavoro degli sviluppatori fornendo loro funzioni integrate facili da usare per il recupero delle informazioni. Possono utilizzare il metodo extractText() sull'oggetto della pagina per ottenere il contenuto del testo della pagina.

Lettura di file PDF tramite Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

Unisci o dividi documenti PDF

Ti sei mai trovato in una situazione in cui avevi bisogno di unire due o più file PDF in un unico documento? L'organizzazione spesso richiede l'unione di più file PDF in un unico documento. La libreria PyPDF2 offre la possibilità di combinare file PDF con solo un paio di righe di codice Python. Gli sviluppatori possono anche dividere facilmente documenti PDF di grandi dimensioni in documenti più piccoli in base alle loro esigenze. Gli sviluppatori possono estrarre facilmente una parte specifica di un libro PDF o dividerlo in più PDF

Unisci file PDF tramite Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Estrai metadati da file PDF

La libreria PyPDF2 include funzionalità per l'estrazione di metadati da documenti PDF utilizzando un paio di comandi Python. Puoi facilmente ottenere informazioni sull'autore, l'app del creatore, il numero di pagine, il titolo del documento e le date di creazione, ecc. Puoi facilmente estrarre i metadati dei documenti PDF e utilizzarli in base alle tue esigenze.

Estrai metadati da PDF tramite Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)