Izveidojiet un konvertējiet PDF uz Docx, izmantojot atvērtā pirmkoda Python bibliotēku
Bezmaksas Python API, kas var izveidot un pārveidot PDF dokumentus DOCX, parsēt un atkārtoti izveidot lapas izkārtojumu vai atkārtoti izveidot rindkopu, izmantojot Python bibliotēku.
PDF dokumentu izveidei un apstrādei ir daudz Python bibliotēku. AS Python tiek uzskatīta par labāko valodu PDF apstrādei, jo tā padara izstrādi tik vienkāršu un ātru. pdf2docx ir viena no šādām jaudīgām atvērtā pirmkoda Python bibliotēkām, kas ļauj datorprogrammētājiem viegli izveidot un konvertēt PDF dokumentus Word DOCX faila formātā. Bibliotēka ir ļoti vienkārši apstrādājama, un tai ir vienkāršs GUI, kas lietotājiem ļauj ērti piekļūt un izmantot dažādas bibliotēkas funkcijas.
pdf2docx bibliotēkā ir iekļauti dažādi līdzekļi PDF darbību apstrādei, piemēram, piekļuve PDF dokumentiem, PDF konvertēšana citos failu formātos, lappušu izkārtojuma parsēšana un pārveidošana, lappuses piemales atbalsts, metainformācijas izvilkšana, teksta izvilkšana no PDF failiem, parsēšana un atkārtota izveide. -rindkopas izveide, teksta ievietošana PDF failā, saraksta stilu atbalsts, attēla parsēšana un pārveidošana, caurspīdīgs attēls, tabulas parsēšana un atkārtota izveide, sapludinātas šūnas, tabula ar daļēji slēptām apmalēm, ligzdotu tabulu atbalsts, lapu parsēšana ar vairākiem apstrāde un daudzas citas.
Darba sākšana ar pdf2docx
pdf2docx ir ļoti viegli instalēt. Ieteicamais veids, kā to izdarīt, ir izmantot pip. Lūdzu, izmantojiet šo komandu, lai atvieglotu instalēšanu.
Instalējiet pdf2docx, izmantojot pip
pip install pdf2docx
Ir iespējams to uzstādīt arī manuāli; lejupielādējiet jaunāko laidienu failus tieši no GitHub krātuves.
Konvertējiet PDF failu uz Docx, izmantojot Python API
Atvērtā pirmkoda pdf2docx bibliotēka pilnībā atbalsta PDF failu konvertēšanu uz Docx faila formātu, izmantojot tikai dažas Python koda rindas. Bibliotēka ir nodrošinājusi vairākas metodes PDF konvertēšanai. Varat konvertēt visas dokumenta lapas vai atlasīt dažas konkrētas lapas un pārvērst tās par Docx failu. Bibliotēka atbalsta arī piekļuvi un konvertēšanu ar paroli aizsargātiem PDF dokumentiem Python lietojumprogrammās. Bibliotēka atbalsta arī vairāku apstrādi, kas darbojas tikai nepārtrauktām PDF lapām, kas norādītas tikai sākumā un beigās.
Konvertējiet visas PDF lapas, izmantojot Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konvertējiet norādītās PDF lapas uz Docx, izmantojot Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Izņemiet tabulu no PDF, izmantojot Python API
Dažreiz mums ir jāizņem daži konkrēti dati no PDF faila. Bezmaksas pdf2docx bibliotēka ļauj lietotājiem izvilkt tabulas no PDF failiem bez ārējām atkarībām. Lai veiktu šo uzdevumu, ir jāizmanto funkcija extract_tables(). Šos piemērus var izmantot, lai no PDF faila izvilktu visas tabulas.
Izņemiet PDF tabulu, izmantojot Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Izņemiet visas tabulas no PDF, izmantojot Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)