Sviluppa app per lavorare con i PDF tramite la libreria Python
API Python open source in grado di dividere, unire, ritagliare e trasformare le pagine dei file PDF, aggiungere dati personalizzati e password al PDF.
PyPDF2 è una libreria Python pura open source che offre la possibilità di lavorare con file PDF all'interno di applicazioni Python senza dipendenze esterne. La libreria include il supporto per numerose importanti funzionalità PDF come l'unione di più file PDF, l'estrazione del contenuto del file PDF, la rotazione di un angolo delle pagine dei file PDF, il ridimensionamento delle pagine PDF, la trasformazione delle pagine dei file PDF, l'estrazione di immagini dalle pagine PDF e molti altri.
La libreria di programmazione open source PyPDF2 è molto facile da usaree il codice sorgente è ben documentato e di facile comprensione. La libreria consente agli sviluppatori di leggere ed estrarre i metadati dei file PDF come il numero di pagine, l'autore, il creatore, l'ora creata e l'ultimo aggiornamento, ecc. La libreria supporta anche la crittografia e la decrittografia dei file PDF con solo un paio di righe di codice Python.
.
Guida introduttiva a PyPDF2
PyPDF2 non fa parte della Python Standard Library, quindi dovrai installarlo tu stesso. Il modo preferito per farlo è usare pip.
Installa PyPDF2 tramite pip
python -m pip install pypdf2
Estrai testo da PDF tramite Python
La libreria PyPDF2 offre funzionalità per estrarre a livello di codice il testo dai file PDF tramite Python. Non è facile recuperare i dati da un file PDF perché il modo in cui il PDF memorizza le informazioni rende difficile ottenerlo. PyPDF2 semplifica il lavoro degli sviluppatori fornendo loro funzioni integrate facili da usare per il recupero delle informazioni. Possono utilizzare il metodo extractText() sull'oggetto della pagina per ottenere il contenuto del testo della pagina.
Estrai testo da PDF tramite Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Lettura di file PDF tramite Python
La libreria PyPDF2 offre la possibilità di estrarre a livello di codice il testo da file PDF tramite Python. Non è facile recuperare i dati da un file PDF perché il modo in cui il PDF memorizza le informazioni rende difficile ottenerlo. PyPDF2 semplifica il lavoro degli sviluppatori fornendo loro funzioni integrate facili da usare per il recupero delle informazioni. Possono utilizzare il metodo extractText() sull'oggetto della pagina per ottenere il contenuto del testo della pagina.
Lettura di file PDF tramite Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Unisci o dividi documenti PDF
Ti sei mai trovato in una situazione in cui avevi bisogno di unire due o più file PDF in un unico documento? L'organizzazione spesso richiede l'unione di più file PDF in un unico documento. La libreria PyPDF2 offre la possibilità di combinare file PDF con solo un paio di righe di codice Python. Gli sviluppatori possono anche dividere facilmente documenti PDF di grandi dimensioni in documenti più piccoli in base alle loro esigenze. Gli sviluppatori possono estrarre facilmente una parte specifica di un libro PDF o dividerlo in più PDF
Unisci file PDF tramite Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Estrai metadati da file PDF
La libreria PyPDF2 include funzionalità per l'estrazione di metadati da documenti PDF utilizzando un paio di comandi Python. Puoi facilmente ottenere informazioni sull'autore, l'app del creatore, il numero di pagine, il titolo del documento e le date di creazione, ecc. Puoi facilmente estrarre i metadati dei documenti PDF e utilizzarli in base alle tue esigenze.
Estrai metadati da PDF tramite Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)