Készítsen és konvertáljon PDF-Docx-at az Open Source Python könyvtáron keresztül

Ingyenes Python API képes létrehozni és átalakítani PDF dokumentumot DOCX, Parke és újra létrehozni oldal elrendezése vagy újra létrehozni a bekezdést a Python Könyvtáron keresztül.

Sok Python könyvtár van PDF dokumentum létrehozására és feldolgozására. A Python a legjobb nyelvnek tekinthető a PDF feldolgozás kezeléséhez, mert olyan egyszerű és gyors fejlődést eredményez. A pdf2doc egy olyan erős nyílt forráskódú Python könyvtár, amely lehetővé teszi a számítógépes programozók számára, hogy PDF dokumentumot hozhassanak létre a Word DOCX fájlformátumba. A könyvtár nagyon egyszerű kezelni és egy egyszerű UI-vel rendelkezik, amely lehetővé teszi a felhasználók számára, hogy könnyen hozzáférjenek és használhassák a könyvtár különböző jellemzőit.

A pdf2docx könyvtár különféle funkciókat tartalmaz a PDF-műveletek kezelésére, mint például a PDF dokumentumok elérése, a PDF konvertálása más fájlformátumokba, az oldalelrendezés elemzése és újralétrehozása, az oldalmargó-támogatás, a metainformációk kinyerése, a szöveg kinyerése a PDF fájlokból, az elemzés és újra. - bekezdés létrehozása, szöveg beszúrása PDF-be, listastílusok támogatása, kép elemzése és újrakészítése, átlátszó kép, táblázat elemzése és újbóli létrehozása, egyesített cellák, táblázat részben rejtett szegéllyel, beágyazott táblázatok támogatása, oldalak elemzése több funkcióval feldolgozás, és még sok más.

Ránézésre

A pdf2doc funkciók áttekintése.

Jellemzők áttekintése

PDF létrehozása
Convert PDF-DOCX
Re-creat oldal elrendezés
List stílusok támogatása
Re-create asztal
Kivonat szöveg PDF
Parke & Re-creat asztal
Több feldolgozó támogatás
Betűtípus beágyazás
Konvertált megadott oldalak
Átlátszó kép
Convert titkosított PDF.

pdf2doc

A pdf2doc támogatja a PDF fájlformátumot, valamint az exportra vonatkozó iparági szabványos formátumokat.

Olvasó

Író

TXT, HTML

pdf2doc

Platformfüggetlenség

pdf2doc tesztelve Python 3.8 és magasabb.

Python 3.8 és magasabb

pdf2doc

Kezdve a pdf2doc

pdf2doc nagyon könnyen telepíthető, Az előnyben részesített módja annak, hogy használja a pip, kérjük használja a következő parancsot bármilyen egyszerű telepítés.

Telepítse pdf2doc Pip

 pip install pdf2docx

Lehetőség van manuális telepítésre is; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.

PDF fájl átalakítása Docx Python API-en keresztül

A nyílt forráskódú pdf2docx könyvtár teljes mértékben támogatja a PDF fájlok Docx fájlformátumba konvertálását, mindössze néhány sor Python kóddal. A könyvtár számos módszert kínál a PDF-konverzió kezelésére. A dokumentum összes oldalát konvertálhatja, vagy kiválaszthat néhány konkrét oldalt, és átalakíthatja azokat Docx-fájllá. A könyvtár emellett támogatja a jelszóval védett PDF dokumentumok elérését és konvertálását Python alkalmazásokon belül. A könyvtár támogatja a többszörös feldolgozást is, amely csak a folyamatos PDF-oldalakon működik, csak az elején és a végén.

Konvertáljon%PDFegy%PDFPDF%PDFoldalt%PDFPython%PDFAPI-on%PDFkeresztül

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konvertáljon PDF oldalt Docx-re Pythononon keresztül

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Kivonat táblázat PDF-ből Python API-en keresztül

Néha bizonyos adatokat kell kivonnunk egy PDF fájlból. Az ingyenes pdf2doc könyvtár lehetővé teszi a felhasználók számára, hogy PDF fájlból kivonják az asztalokat külső függőségek nélkül. Ahhoz, hogy elérje ezt a feladatot, a kivonat_tables(%PDF funkciót kell használnia. A következő példák felhasználhatók az összes táblázat kivonására egy PDF fájlból.

Kivonat PDF asztalon keresztül Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Kivonja az összes asztalt PDF-ből Python API-en keresztül

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)