Luo ja muunna PDF Docx:ksi avoimen lähdekoodin Python-kirjaston kautta
Ilmainen Python API, joka pystyy luomaan ja muuttamaan PDF-dokumentteja DOCX:ksi, jäsentämään ja luomaan uudelleen sivuasettelun tai luomaan kappaleen uudelleen Python-kirjaston kautta.
PDF-dokumenttien luomiseen ja käsittelyyn on olemassa monia Python-kirjastoja. AS Pythonia pidetään parhaana kielenä PDF-käsittelyyn, koska se tekee kehityksestä niin helppoa ja nopeaa. pdf2docx on yksi sellaisista tehokkaasta avoimen lähdekoodin Python-kirjastosta, jonka avulla tietokoneohjelmoijat voivat luoda ja muuntaa PDF-dokumentteja Word DOCX -tiedostomuotoon helposti. Kirjasto on erittäin yksinkertainen käsitellä, ja siinä on yksinkertainen käyttöliittymä, jonka avulla käyttäjät voivat helposti käyttää ja käyttää kirjaston eri ominaisuuksia.
pdf2docx-kirjastossa on useita ominaisuuksia PDF-toimintojen käsittelyyn, kuten PDF-dokumenttien käyttämiseen, PDF-tiedostojen muuntamiseen muihin tiedostomuotoihin, sivuasettelun jäsentämiseen ja uudelleenluomiseen, sivun marginaalien tuki, metatietojen poimiminen, tekstin poimiminen PDF-tiedostoista, jäsentäminen ja uudelleen -kappaleen luominen, tekstin lisääminen PDF-tiedostoon, luettelotyylien tuki, jäsentää ja luoda uudelleen kuva, läpinäkyvä kuva, jäsentää ja luoda taulukko uudelleen, yhdistetyt solut, taulukko osittain piiloreunoilla, sisäkkäisten taulukoiden tuki, sivujen jäsentäminen usealla käsittely ja paljon muuta.
pdf2docx:n käytön aloittaminen
pdf2docx on erittäin helppo asentaa. Suositeltu tapa tehdä se on käyttää pip-komentoa. Käytä seuraavaa komentoa helpottaaksesi asennusta.
Asenna pdf2docx pipin kautta
pip install pdf2docx
Se on myös mahdollista asentaa manuaalisesti; lataa uusimmat julkaisutiedostot suoraan GitHub-arkistosta.
Muunna PDF-tiedosto Docx-muotoon Python API:n kautta
Avoimen lähdekoodin pdf2docx-kirjasto tukee täysin PDF-tiedostojen muuntamista Docx-tiedostomuotoon vain muutamalla Python-koodirivillä. Kirjasto on tarjonnut useita tapoja käsitellä PDF-muunnoksia. Voit muuntaa asiakirjan kaikki sivut tai valita tiettyjä sivuja ja muuntaa ne Docx-tiedostoksi. Kirjasto tukee myös salasanalla suojattujen PDF-dokumenttien käyttöä ja muuntamista Python-sovelluksissa. Kirjasto tukee myös monikäsittelyä, joka toimii vain jatkuvilla PDF-sivuilla, jotka on määritetty vain alussa ja lopussa.
Muunna PDF-tiedoston kaikki sivut Python API:n kautta
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Muunna määritetyt PDF-sivut Docx-muotoon Pythonin kautta
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Pura taulukko PDF-tiedostosta Python API:n kautta
Joskus meidän on purettava tiettyjä tietoja PDF-tiedostosta. Ilmaisen pdf2docx-kirjaston avulla käyttäjät voivat poimia taulukoita PDF-tiedostoista ilman ulkoisia riippuvuuksia. Tämän tehtävän suorittamiseksi sinun on käytettävä extract_tables()-funktiota. Seuraavia esimerkkejä voidaan käyttää kaikkien taulukoiden poimimiseen PDF-tiedostosta.
Pura PDF-taulukko Python API:n kautta
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Pura kaikki taulukot PDF-tiedostosta Python API:n kautta
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)