Opprett og konverter PDF til Docx via Open Source Python Library

Gratis Python API som kan lage og konvertere PDF-dokumenter til DOCX, analysere og gjenopprette sidelayout eller gjenopprette avsnitt via Python Library.

Det er mange Python-biblioteker for oppretting og behandling av PDF-dokumenter. AS Python anses å være det beste språket for å håndtere PDF-behandling fordi det gjør utviklingen så enkel og rask. pdf2docx er et så kraftig åpen kildekode Python-bibliotek som gjør det mulig for dataprogrammerere å lage og konvertere PDF-dokumenter til Word DOCX-filformat med letthet. Biblioteket er veldig enkelt å håndtere og har en enkel GUI som gjør det mulig for brukere å enkelt få tilgang til og bruke ulike funksjoner i biblioteket.

pdf2docx-biblioteket har inkludert ulike funksjoner for håndtering av PDF-operasjoner som å få tilgang til PDF-dokumenter, konvertere PDF til andre filformater, analysere og gjenopprette sidelayout, sidemarginstøtte, trekke ut metainformasjon, trekke ut tekst fra PDF-filer, analysere og gjenopprette -opprette avsnitt, sette inn tekst til PDF, støtte for listestiler, analysere og gjenopprette bildet, gjennomsiktig bilde, analysere og gjenopprette tabellen, sammenslåtte celler, tabell med delvis skjulte kanter, støtte for nestede tabeller, parsing av sider med multi- behandling og mye mer.

Med et blikk

En oversikt over pdf2docx-funksjoner.

Oversikt over funksjoner

Lag PDF
Konverter PDF til DOCX
Gjenopprett sidelayout
Støtte for listestiler
Lag tabell på nytt
Trekk ut tekst fra PDF
Analyser og gjenopprett tabell
Støtte for flere prosesser
Innbygging av skrift
Konverter angitte sider
Gjennomsiktig bilde
Konverter kryptert PDF

pdf2docx

pdf2docx støtter PDF-filformat så vel som industristandardformater for eksport.

Leser

Forfatter

TXT, HTML

pdf2docx

Plattformuavhengighet

pdf2docx er testet med Python 3.8 og høyere.

Python 3.8 og høyere

pdf2docx

Komme i gang med pdf2docx

pdf2docx er veldig enkelt å installere. Den foretrukne måten å gjøre det på er å bruke pip, vennligst bruk følgende kommando for enkel installasjon.

Installer pdf2docx via pip

 pip install pdf2docx

Det er også mulig å installere det manuelt; last ned de siste utgivelsesfilene direkte fra GitHub-depotet.

Konverter PDF-fil til Docx via Python API

Åpen kildekode pdf2docx-biblioteket støtter fullt PDF-filkonvertering til Docx-filformat med bare et par linjer med Python-kode. Biblioteket har gitt flere metoder for å håndtere PDF-konvertering. Du kan konvertere alle sidene i et dokument eller velge noen spesifikke sider og konvertere dem til en Docx-fil. Biblioteket støtter også tilgang til og konvertering av passordbeskyttede PDF-dokumenter i Python-applikasjoner. Biblioteket støtter også multi-prosessering som kun fungerer for kontinuerlige PDF-sider, spesifisert kun etter start og slutt.

Konverter alle sider i en PDF via Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konverter spesifiserte PDF-sider til Docx via Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Trekk ut tabell fra PDF via Python API

Noen ganger må vi trekke ut noen spesifikke data fra en PDF-fil. Det gratis pdf2docx-biblioteket lar brukere trekke ut tabeller fra PDF-filer uten eksterne avhengigheter. For å oppnå denne oppgaven må du bruke extract_tables()-funksjonen. Følgende eksempler kan brukes til å trekke ut alle tabeller fra en PDF-fil.

Pakk ut PDF-tabell via Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Trekk ut alle tabeller fra PDF via Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)