Sukurkite ir konvertuokite PDF į Docx naudodami atvirojo kodo Python biblioteką

Nemokama Python API, galinti kurti ir konvertuoti PDF dokumentus į DOCX, išanalizuoti ir iš naujo sukurti puslapio išdėstymą arba iš naujo sukurti pastraipą per Python biblioteką.

Yra daug Python bibliotekų, skirtų PDF dokumentams kurti ir apdoroti. AS Python laikoma geriausia PDF apdorojimo kalba, nes ji leidžia kurti taip lengvai ir greitai. pdf2docx yra viena iš tokių galingų atvirojo kodo Python bibliotekų, leidžiančių kompiuterių programuotojams lengvai kurti ir konvertuoti PDF dokumentus į Word DOCX failo formatą. Biblioteka yra labai paprasta valdyti ir turi paprastą grafinę sąsają, kuri leidžia vartotojams lengvai pasiekti ir naudoti įvairias bibliotekos funkcijas.

pdf2docx bibliotekoje yra įvairių funkcijų, skirtų PDF operacijoms tvarkyti, pavyzdžiui, pasiekti PDF dokumentus, konvertuoti PDF į kitus failų formatus, analizuoti ir iš naujo sukurti puslapio išdėstymą, puslapio paraštės palaikymą, metainformacijos ištraukimą, teksto ištraukimą iš PDF failų, analizavimą ir iš naujo. - pastraipos kūrimas, teksto įterpimas į PDF, sąrašo stilių palaikymas, išanalizuoti ir iš naujo sukurti vaizdą, skaidrus vaizdas, išanalizuoti ir iš naujo sukurti lentelę, sujungti langeliai, lentelė su iš dalies paslėptomis kraštinėmis, įdėtųjų lentelių palaikymas, puslapių analizavimas naudojant kelis apdorojimas ir daugelis kitų.

Žvilgsniu

pdf2docx funkcijų apžvalga.

Savybių apžvalga

Sukurti PDF
Konvertuoti PDF į DOCX
Iš naujo sukurkite puslapio išdėstymą
Sąrašo stilių palaikymas
Iš naujo sukurti lentelę
Ištraukite tekstą iš pdf
Išnagrinėti ir iš naujo sukurti lentelę
Kelių apdorojimo palaikymas
Šrifto įterpimas
Konvertuoti nurodytus puslapius
Skaidrus vaizdas
Konvertuoti užšifruotą PDF

pdf2docx

pdf2docx palaiko PDF failo formatą, taip pat pramonės standartinius eksporto formatus.

Skaitytojas

Rašytojas

TXT, HTML

pdf2docx

Platformos nepriklausomybė

pdf2docx išbandytas naudojant Python 3.8 ir naujesnę versiją.

Python 3.8 ir naujesnės versijos

pdf2docx

Darbo pradžia su pdf2docx

pdf2docx įdiegti labai paprasta. Geriausias būdas tai padaryti yra naudoti pip. Jei norite lengvai įdiegti, naudokite šią komandą.

Įdiekite pdf2docx per pip

 pip install pdf2docx

Galima montuoti ir rankiniu būdu; atsisiųskite naujausius leidimo failus tiesiai iš GitHub saugyklos.

Konvertuokite PDF failą į Docx naudodami Python API

Atvirojo kodo pdf2docx biblioteka visiškai palaiko PDF failo konvertavimą į Docx failo formatą, naudojant tik kelias Python kodo eilutes. Biblioteka pateikė kelis PDF konvertavimo būdus. Galite konvertuoti visus dokumento puslapius arba pasirinkti kai kuriuos konkrečius puslapius ir konvertuoti juos į Docx failą. Biblioteka taip pat palaiko prieigą prie slaptažodžiu apsaugotų PDF dokumentų ir jų konvertavimą Python programose. Biblioteka taip pat palaiko daugialypį apdorojimą, kuris veikia tik nuolatiniams PDF puslapiams, nurodytiems tik pradžioje ir pabaigoje.

Konvertuokite visus PDF puslapius naudodami Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konvertuokite nurodytus PDF puslapius į Docx naudodami Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Ištraukite lentelę iš PDF per Python API

Kartais mums reikia iš PDF failo išgauti kai kuriuos konkrečius duomenis. Nemokama pdf2docx biblioteka leidžia vartotojams išgauti lenteles iš PDF failų be jokių išorinių priklausomybių. Norėdami atlikti šią užduotį, turite naudoti funkciją extract_tables(). Toliau pateikti pavyzdžiai gali būti naudojami norint ištraukti visas lenteles iš PDF failo.

Išskleiskite PDF lentelę per Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Ištraukite visas lenteles iš PDF per Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)