1. produkty
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

Vytvořit a převést PDF na Docx pomocí Open Source Python knihovny

Free Python API schopen vytvářet a převádět PDF dokumentů do DOCX, Parke a znovu vytvořit rozvržení stránky nebo znovu vytvořit odstavec pomocí knihovny Python.

Existuje mnoho knihoven Pythonu pro vytváření a zpracování dokumentů PDF. AS Python je považován za nejlepší jazyk pro zpracování PDF, protože vývoj je tak snadný a rychlý. pdf2docx je jedna taková výkonná open source knihovna Pythonu, která umožňuje počítačovým programátorům snadno vytvářet a převádět dokumenty PDF do formátu Word DOCX. Knihovna se velmi snadno ovládá a má jednoduché GUI, které uživatelům umožňuje snadný přístup k různým funkcím knihovny a jejich používání.

Knihovna pdf2doc zahrnovala různé funkce pro manipulaci s PDF operacemi, jako je přístup PDF dokumentů, konverze PDF do jiných formátů souborů, parsing a re-create rozvržení stránky, podpora okrajů stránek, extrahování meta-informací, extrahování textu z PDF souborů, parsing a re-creating odstavec, vkládání textu do PDF, seznam stylů podpory, Parke a znovu vytvořit obraz, průhledný obraz, Parke a znovu vytvořit stůl, sloučené buňky, stůl s částečně skrytými hranicemi, podpora vnořené tabulky, Předávání stránek s multiprocesingem a mnoho dalších.

Previous Next

Začínáme s pdf2doc

pdf2doc je velmi snadné instalovat, Preferovaný způsob, jak to udělat, je použít pip, použijte následující příkaz pro snadnou instalaci.

Instalace pdf2doc přes pip

 pip install pdf2docx 

Je také možné jej nainstalovat ručně; stáhněte si soubory nejnovější verze přímo z úložiště GitHub.

Převeďte soubor PDF na Docx přes Python API

Otevřete zdroj pdf2doc knihovna plně podporuje PDF konverzi souborů do formátu Docx s pouhým několika řádky kódu Python. Knihovna poskytuje několik metod pro manipulaci s PDF konverzemi. Můžete převést všechny stránky dokumentu nebo vybrat některé konkrétní stránky a převést je na Docx soubor. Knihovna také podporuje přístup a konverzi hesel chráněných PDF dokumentů uvnitř aplikace Python. Knihovna také podporuje víceprocesing, který funguje pouze pro kontinuální PDF stran, zadané startem a koncem pouze.

Převést všechny stránky PDF přes Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Převést Specifikované PDF Stránky do Docx přes Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Tabulka výpisů z PDF přes Python API

Někdy potřebujeme extrahovat určité údaje z souboru PDF. Bezplatná knihovna pdf2doc umožňuje uživatelům extrahovat tabulky z PDF souborů bez externích závislostí. Chcete-li dosáhnout tohoto úkolu, musíte použít funkci extrahovat_tables(). Následující příklady lze použít pro extrahování všech tabulek z PDF souboru.

Extrahujte PDF Tabulka pomocí Pythonu API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Extrahujte všechny tabulky z PDF přes Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 Čeština