Opprett og konverter PDF til Docx via Open Source Python Library
Gratis Python API som kan lage og konvertere PDF-dokumenter til DOCX, analysere og gjenopprette sidelayout eller gjenopprette avsnitt via Python Library.
Det er mange Python-biblioteker for oppretting og behandling av PDF-dokumenter. AS Python anses å være det beste språket for å håndtere PDF-behandling fordi det gjør utviklingen så enkel og rask. pdf2docx er et så kraftig åpen kildekode Python-bibliotek som gjør det mulig for dataprogrammerere å lage og konvertere PDF-dokumenter til Word DOCX-filformat med letthet. Biblioteket er veldig enkelt å håndtere og har en enkel GUI som gjør det mulig for brukere å enkelt få tilgang til og bruke ulike funksjoner i biblioteket.
pdf2docx-biblioteket har inkludert ulike funksjoner for håndtering av PDF-operasjoner som å få tilgang til PDF-dokumenter, konvertere PDF til andre filformater, analysere og gjenopprette sidelayout, sidemarginstøtte, trekke ut metainformasjon, trekke ut tekst fra PDF-filer, analysere og gjenopprette -opprette avsnitt, sette inn tekst til PDF, støtte for listestiler, analysere og gjenopprette bildet, gjennomsiktig bilde, analysere og gjenopprette tabellen, sammenslåtte celler, tabell med delvis skjulte kanter, støtte for nestede tabeller, parsing av sider med multi- behandling og mye mer.
Komme i gang med pdf2docx
pdf2docx er veldig enkelt å installere. Den foretrukne måten å gjøre det på er å bruke pip, vennligst bruk følgende kommando for enkel installasjon.
Installer pdf2docx via pip
pip install pdf2docx
Det er også mulig å installere det manuelt; last ned de siste utgivelsesfilene direkte fra GitHub-depotet.
Konverter PDF-fil til Docx via Python API
Åpen kildekode pdf2docx-biblioteket støtter fullt PDF-filkonvertering til Docx-filformat med bare et par linjer med Python-kode. Biblioteket har gitt flere metoder for å håndtere PDF-konvertering. Du kan konvertere alle sidene i et dokument eller velge noen spesifikke sider og konvertere dem til en Docx-fil. Biblioteket støtter også tilgang til og konvertering av passordbeskyttede PDF-dokumenter i Python-applikasjoner. Biblioteket støtter også multi-prosessering som kun fungerer for kontinuerlige PDF-sider, spesifisert kun etter start og slutt.
Konverter alle sider i en PDF via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konverter spesifiserte PDF-sider til Docx via Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Trekk ut tabell fra PDF via Python API
Noen ganger må vi trekke ut noen spesifikke data fra en PDF-fil. Det gratis pdf2docx-biblioteket lar brukere trekke ut tabeller fra PDF-filer uten eksterne avhengigheter. For å oppnå denne oppgaven må du bruke extract_tables()-funksjonen. Følgende eksempler kan brukes til å trekke ut alle tabeller fra en PDF-fil.
Pakk ut PDF-tabell via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Trekk ut alle tabeller fra PDF via Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)