Opret og konverter PDF til Docx via Open Source Python Library

Gratis Python API, der er i stand til at oprette og konvertere PDF-dokumenter til DOCX, parse og genskabe sidelayout eller genskabe afsnit via Python Library.

Der er mange Python-biblioteker til oprettelse og behandling af PDF-dokumenter. AS Python anses for at være det bedste sprog til håndtering af PDF-behandling, fordi det gør udvikling så let og hurtig. pdf2docx er et sådant kraftfuldt open source Python-bibliotek, der gør det muligt for computerprogrammører at oprette og konvertere PDF-dokumenter til Word DOCX-filformat med lethed. Biblioteket er meget enkelt at håndtere og har en simpel GUI, der gør det muligt for brugerne nemt at få adgang til og bruge forskellige funktioner i biblioteket.

pdf2docx-biblioteket har inkluderet forskellige funktioner til håndtering af PDF-handlinger, såsom adgang til PDF-dokumenter, konvertering af PDF til andre filformater, parsing og genskabelse af sidelayout, sidemarginunderstøttelse, udtrækning af metainformation, udtrækning af tekst fra PDF-filer, parsing og genskabelse. -oprettelse af afsnit, indsættelse af tekst til PDF, understøttelse af listestile, Parse og genskabe billedet, transparent billede, Parse og genskabe tabellen, flettede celler, tabel med delvist skjulte kanter, indlejrede tabeller understøttelse, Parsing sider med multi- forarbejdning og mange flere.

Ved første øjekast

En oversigt over pdf2docx funktioner.

Oversigt over funktioner

Opret PDF
Konverter PDF til DOCX
Genopret sidelayout
Understøttelse af listestile
Genopret tabel
Uddrag tekst fra PDF
Parse & Genopret tabel
Multi-processing support
Indlejring af skrifttyper
Konverter specificerede sider
Gennemsigtigt billede
Konverter krypteret PDF

pdf2docx

pdf2docx understøtter PDF-filformat såvel som industristandardformater til eksport.

Læser

Forfatter

TXT, HTML

pdf2docx

Platformuafhængighed

pdf2docx er testet med Python 3.8 og nyere.

Python 3.8 og nyere

pdf2docx

Kom godt i gang med pdf2docx

pdf2docx er meget let at installere. Den foretrukne måde at gøre det på er at bruge pip, brug venligst følgende kommando til enhver nem installation.

Installer pdf2docx via pip

 pip install pdf2docx

Det er også muligt at installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.

Konverter PDF-fil til Docx via Python API

Open source pdf2docx-biblioteket understøtter fuldt ud PDF-filkonvertering til Docx-filformat med blot et par linjer Python-kode. Biblioteket har givet flere metoder til håndtering af PDF-konvertering. Du kan konvertere alle sider i et dokument eller vælge nogle specifikke sider og konvertere dem til en Docx-fil. Biblioteket understøtter også adgang til og konvertering af adgangskodebeskyttede PDF-dokumenter i Python-applikationer. Biblioteket understøtter også multi-processing, som kun virker for kontinuerlige PDF-sider, kun specificeret efter start og slut.

Konverter alle sider i en PDF via Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konverter specificerede PDF-sider til Docx via Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Uddrag tabel fra PDF via Python API

Nogle gange har vi brug for at udtrække nogle specifikke data fra en PDF-fil. Det gratis pdf2docx-bibliotek giver brugerne mulighed for at udtrække tabeller fra PDF-filer uden nogen ekstern afhængighed. For at opnå denne opgave skal du bruge funktionen extract_tables() . Følgende eksempler kan bruges til at udtrække alle tabeller fra en PDF-fil.

Udpak PDF-tabel via Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Uddrag alle tabeller fra PDF via Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)