1. produkty
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Extrahujte informace z PDF prostřednictvím bezplatné knihovny Python

Zdarma Python API, které umožňuje vývojářům extrahovat informace z dokumentů PDF a převádět PDF do jiných formátů a provádí automatickou analýzu rozložení.

PDFMiner je open source velmi snadno použitelná knihovna Pythonu pro zpracování souborů PDF bez jakýchkoli dalších závislostí. PDFMine.six komunitou spravovaná větev původní knihovny PDFMiner. Knihovna poskytuje velmi výkonné funkce pro extrahování informací z dokumentů PDF. Poskytuje příkazový nástroj pro neprogramátory a rozhraní API pro programátory. Součástí knihovny je také výkonný převodník PDF, který uživatelům pomáhá převádět soubory PDF do jiných textových formátů, jako je HTML.

PDFMiner je čistá knihovna Pythonu, která dokáže snadno extrahovat všechny texty ze souboru PDF, které jsou vykreslovány programově. Skvělá schopnost je, že také extrahuje odpovídající umístění, názvy a velikosti písem a směr psaní (horizontální nebo vertikální) pro každý textový segment. Podporuje specifikaci PDF-1.7 a poskytuje podporu pro extrakci PDF dokumentů chráněných heslem. Knihovna obsahovala několik dalších důležitých funkcí, jako je analýza, analýza a převod dokumentů PDF, extrahování obsahu jako HTML nebo hOCR, podpora vertikálních skriptů pro psaní, podpora šifrování RC4 a AES, extrahování obsahu, extrakce označeného obsahu, automatické rozvržení analýzy a tak dále.

Previous Next

Začínáme s PDFMiner

PDFMiner vyžaduje Python 3.6 a vyšší. PDFMiner můžete nainstalovat pomocí pip. K instalaci použijte následující příkaz.

Nainstalujte PDFMiner přes pip

 pip install pdfminer 

Můžete si také stáhnout zkompilovanou sdílenou knihovnu z úložiště GitHub a nainstalovat ji.

Extrahujte text ze souboru PDF přes Python

Knihovna Pdfminer.six s otevřeným zdrojovým kódem dává vývojářům softwaru možnost extrahovat text ze souboru PDF pomocí pouhých několika řádků kódu Python. Knihovna se zaměřuje na získávání a analýzu textových dat a poté extrahuje text ze stránky přímo ze zdrojového kódu PDF. Knihovna také umožňuje vývojářům extrahovat obrázky (JPG, JBIG2, Bitmapy) ze souboru PDF. Je také možné extrahovat název písma nebo velikost každého jednotlivého znaku. Následující příklady ukazují, jak extrahovat text ze souboru PDF a vytisknout jej na obrazovku.

Otevírejte a manipulujte s dokumenty PDF pomocí Pythonu

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Převeďte soubor PDF na hOCR přes Python API

hOCR je otevřený standard reprezentace dat pro formátovaný text získaný z optického rozpoznávání znaků (OCR). Bezplatné knihovny Pdfminer.six umožňují vývojářům softwaru převádět soubory PDF do formátu hOCR pomocí pouhých několika řádků kódu Python. Knihovna je velmi snadno ovladatelná a dokáže extrahovat explicitní textové informace z těch PDF, které je mají, a používá je ke generování základní reprezentace hOCR.

Převeďte soubor PDF na text pomocí Pythonu

Knihovna obsahuje bohatou sadu funkcí a možností, které vám umožňují rozšířit rámec základního zpracování PDF. Open source knihovna Pdfminer.six umožňuje vývojářům Pythonu převádět dokumenty PDF na text pomocí několika jednoduchých příkazů. Nejprve musíte zadat cestu k souborům PDF a také k textovému souboru. Pokud je dokument chráněn heslem, musíte také zadat jeho heslo. Následující příklad kódu lze použít k dosažení cíle, jednoduše vrátí řetězec v PDF, vzhledem k jeho názvu jej můžete snadno uložit do souboru a.

Převeďte soubor PDF do textového formátu pomocí rozhraní Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Čeština