Estrai informazioni dai PDF tramite la libreria Python gratuita

API Python gratuita che consente agli sviluppatori di estrarre informazioni dai documenti PDF e convertire i PDF in altri formati ed esegue l'analisi automatica del layout.

PDFMiner è una libreria Python open source molto facile da usare per l'elaborazione di file PDF senza altre dipendenze. PDFMine.six fork gestito dalla comunità della libreria PDFMiner originale. La libreria ha fornito funzionalità molto potenti per l'estrazione di informazioni dai documenti PDF. Fornisce un'utilità di comando per i non programmatori e un'interfaccia API per i programmatori. Un potente convertitore PDF fa anche parte della libreria che aiuta gli utenti a trasformare i file PDF in altri formati di testo come HTML.

Il PDFMiner è una libreria Python pura che può facilmente estrarre tutti i testi da un file PDF che vengono renderizzati a livello di codice. La grande capacità è che estrae anche le posizioni corrispondenti, i nomi e le dimensioni dei caratteri e la direzione di scrittura (orizzontale o verticale) per ogni segmento di testo. Supporta la specifica PDF-1.7 e fornisce supporto per l'estrazione di documenti PDF protetti da password. La libreria ha incluso molte altre importanti funzionalità, come l'analisi, l'analisi e la conversione di documenti PDF, l'estrazione di contenuti come HTML o hOCR, il supporto per script di scrittura verticale, il supporto per la crittografia RC4 e AES, l'estrazione di sommari, l'estrazione di contenuti con tag, il layout automatico analisi e così via.

A prima vista

Una panoramica delle funzionalità di PDFMiner.

Panoramica delle caratteristiche

Analizza il PDF
Analizza PDF
Converti file PDF
Riparazione PDF
Estrai testo
PDF in HTML
Da PDF a XML
PDF rotanti
lingue CJK
Crittografia di base
Estrazione TOC
Vari tipi di font

PDFMiner

PDFMiner supporta il formato di file PDF e i formati standard del settore per l'esportazione.

Lettore

scrittore

PDF, TXT, HTML, MML

PDFMiner

Indipendenza dalla piattaforma

PDFMiner è testato con Python 3.6 e versioni successive.

Python 3.6 e versioni successive

PDFMiner

Iniziare con PDFMiner

PDFMiner richiede Python 3.6 e versioni successive. Puoi installare PDFMiner usando pip. Si prega di utilizzare il seguente comando per installarlo.

Installa PDFMiner tramite pip

 pip install pdfminer

Puoi anche scaricare la libreria condivisa compilata dal repository GitHub e installarla.

Estrai il testo dal file PDF tramite Python

La libreria open source Pdfminer.six offre agli sviluppatori di software la possibilità di estrarre testo da un file PDF con solo un paio di righe di codice Python. La libreria si concentra sull'acquisizione e l'analisi dei dati di testo e successivamente estrae il testo da una pagina direttamente dal codice sorgente del PDF. La libreria consente inoltre agli sviluppatori di estrarre immagini (JPG, JBIG2, Bitmap) da un file PDF. È anche possibile estrarre il Fontname o la dimensione di ogni singolo carattere. Gli esempi seguenti mostrano come estrarre il testo da un file PDF e stamparlo sullo schermo.

Apri e manipola documenti PDF tramite Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Converti file PDF in hOCR tramite l'API Python

hOCR è uno standard aperto di rappresentazione dei dati per il testo formattato ottenuto dal riconoscimento ottico dei caratteri (OCR). Le librerie Pdfminer.six gratuite consentono agli sviluppatori di software di convertire i file PDF in formato hOCR con solo un paio di righe di codice Python. La libreria è molto facile da gestire e può estrarre le informazioni di testo esplicite da quei PDF che le hanno e le utilizza per generare una rappresentazione hOCR di base.

Converti file PDF in testo tramite Python

La libreria include un ricco set di funzionalità e funzionalità che consentono di estendersi oltre l'elaborazione PDF di base. La libreria open source Pdfminer.six consente agli sviluppatori Python di convertire i documenti PDF in testo con solo un paio di semplici comandi. Per prima cosa devi fornire il percorso ai file PDF e al file di testo. Se il documento è protetto da password, è necessario fornire anche la relativa password. Il seguente esempio di codice può essere utilizzato per raggiungere l'obiettivo, restituirà semplicemente la stringa in un PDF, dato il suo nome file, puoi salvarlo facilmente in un file.

Converti file PDF in formato testo tramite l'API Python

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text