Izveidojiet un konvertējiet PDF uz Docx, izmantojot atvērtā pirmkoda Python bibliotēku

Bezmaksas Python API, kas var izveidot un pārveidot PDF dokumentus DOCX, parsēt un atkārtoti izveidot lapas izkārtojumu vai atkārtoti izveidot rindkopu, izmantojot Python bibliotēku.

PDF dokumentu izveidei un apstrādei ir daudz Python bibliotēku. AS Python tiek uzskatīta par labāko valodu PDF apstrādei, jo tā padara izstrādi tik vienkāršu un ātru. pdf2docx ir viena no šādām jaudīgām atvērtā pirmkoda Python bibliotēkām, kas ļauj datorprogrammētājiem viegli izveidot un konvertēt PDF dokumentus Word DOCX faila formātā. Bibliotēka ir ļoti vienkārši apstrādājama, un tai ir vienkāršs GUI, kas lietotājiem ļauj ērti piekļūt un izmantot dažādas bibliotēkas funkcijas.

pdf2docx bibliotēkā ir iekļauti dažādi līdzekļi PDF darbību apstrādei, piemēram, piekļuve PDF dokumentiem, PDF konvertēšana citos failu formātos, lappušu izkārtojuma parsēšana un pārveidošana, lappuses piemales atbalsts, metainformācijas izvilkšana, teksta izvilkšana no PDF failiem, parsēšana un atkārtota izveide. -rindkopas izveide, teksta ievietošana PDF failā, saraksta stilu atbalsts, attēla parsēšana un pārveidošana, caurspīdīgs attēls, tabulas parsēšana un atkārtota izveide, sapludinātas šūnas, tabula ar daļēji slēptām apmalēm, ligzdotu tabulu atbalsts, lapu parsēšana ar vairākiem apstrāde un daudzas citas.

Īsumā

Pārskats par pdf2docx funkcijām.

Funkcijas pārskats

Izveidot PDF
Konvertējiet PDF uz DOCX
Atkārtoti izveidojiet lapas izkārtojumu
Sarakstu stilu atbalsts
Atkārtoti izveidojiet tabulu
Izvilkt tekstu no PDF
Parsēt un atkārtoti izveidot tabulu
Vairāku apstrādes atbalsts
Fontu iegulšana
Konvertēt norādītās lapas
Caurspīdīgs attēls
Konvertēt šifrētu PDF

pdf2docx

pdf2docx atbalsta PDF failu formātu, kā arī nozares standarta formātus eksportam.

Lasītājs

rakstnieks

TXT, HTML

pdf2docx

Platformas neatkarība

pdf2docx ir pārbaudīts ar Python 3.8 un jaunākām versijām.

Python 3.8 un jaunākas versijas

pdf2docx

Darba sākšana ar pdf2docx

pdf2docx ir ļoti viegli instalēt. Ieteicamais veids, kā to izdarīt, ir izmantot pip. Lūdzu, izmantojiet šo komandu, lai atvieglotu instalēšanu.

Instalējiet pdf2docx, izmantojot pip

 pip install pdf2docx

Ir iespējams to uzstādīt arī manuāli; lejupielādējiet jaunāko laidienu failus tieši no GitHub krātuves.

Konvertējiet PDF failu uz Docx, izmantojot Python API

Atvērtā pirmkoda pdf2docx bibliotēka pilnībā atbalsta PDF failu konvertēšanu uz Docx faila formātu, izmantojot tikai dažas Python koda rindas. Bibliotēka ir nodrošinājusi vairākas metodes PDF konvertēšanai. Varat konvertēt visas dokumenta lapas vai atlasīt dažas konkrētas lapas un pārvērst tās par Docx failu. Bibliotēka atbalsta arī piekļuvi un konvertēšanu ar paroli aizsargātiem PDF dokumentiem Python lietojumprogrammās. Bibliotēka atbalsta arī vairāku apstrādi, kas darbojas tikai nepārtrauktām PDF lapām, kas norādītas tikai sākumā un beigās.

Konvertējiet visas PDF lapas, izmantojot Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konvertējiet norādītās PDF lapas uz Docx, izmantojot Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Izņemiet tabulu no PDF, izmantojot Python API

Dažreiz mums ir jāizņem daži konkrēti dati no PDF faila. Bezmaksas pdf2docx bibliotēka ļauj lietotājiem izvilkt tabulas no PDF failiem bez ārējām atkarībām. Lai veiktu šo uzdevumu, ir jāizmanto funkcija extract_tables(). Šos piemērus var izmantot, lai no PDF faila izvilktu visas tabulas.

Izņemiet PDF tabulu, izmantojot Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Izņemiet visas tabulas no PDF, izmantojot Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)