Gratis Python API til at udtrække tekst, tabeller og billeder fra DOCX-filer

Open source Python-bibliotek til at udtrække tekst, billeder, tabeller, sidehoveder og sidefødder eller andre specifikke dele af Word DOCX-dokumenter i Python-applikationer.

Hvad er Docx2Python-biblioteket?

I dagens digitale tidsalder er effektiv behandling og udtrækning af data fra dokumenter vigtigere end nogensinde. Softwareudviklere støder ofte på Microsoft Word DOCX-filer, der indeholder værdifuld information, men som kan være udfordrende at parse. Docx2Python er et Python-bibliotek, der gør det muligt for softwareudviklere at udtrække tekst, tabeller, billeder og andet indhold fra .docx-filer med lethed. I modsætning til andre dokumentbehandlingsbiblioteker er Docx2Python specifikt designet til at levere et rent, struktureret output, der er nemt at arbejde med. Dette gør det til et fremragende valg for udviklere, der har brug for at parse og analysere Word-dokumenter programmatisk. Biblioteket er open source, hvilket betyder, at det er frit tilgængeligt for alle at bruge, modificere og distribuere.

Docx2Python er et kraftfuldt værktøj designet til at læse DOCX-filer og konvertere deres indhold til indlejrede Python-datastrukturer. Det er et robust og fleksibelt open source-bibliotek, der forenkler udtrækning af strukturerede data fra DOCX-filer. Biblioteket understøtter omfattende parsing, automatiseret rapportgenerering, avanceret dokumentbehandling, struktureret dataoutput, bevaring af layout osv. Softwareudviklere kan konvertere DOCX-indhold til andre formater (som HTML eller Markdown) samtidig med at de bevarer det tilsigtede udseende. Ved at omfavne open source-løsninger som Docx2Python kan softwareudviklere reducere manuelt arbejde, fremme innovation og skabe applikationer, der virkelig transformerer måden vi interagerer med og analyserer tekstdata.

På et overblik

En oversigt over Docx2Python-funktioner.

Features Overview

Opret DOCX
Rediger DOCX
Tilføj afsnit
Tilføj tabel
Indsæt billede
Tekstformatering
Tilføj overskrift
Sideskift
Angiv farver
Tekstjustering
Bogmærkestøtte

Docx2Python

Docx2Python understøtter populære kompressionsfilformater, der er anført nedenfor.

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

Platformuafhængighed

Docx2Python kræver kun Python 2.6 eller nyere

Python 2.6, 2.7, 3.3 eller 3.4
lxml >= 2.3.2

Docx2Python

Kom i gang med Docx2Python

Docx2Python er hostet på PyPI, så det er meget enkelt at installere. Det kan installeres med pip ved hjælp af følgende kommando.

Installer Docx2Python via pip-kommando

pip install docx2python

Det kan også installeres via easy_install, men anbefales ikke.

Udtrækning af tekst for Word-dokumenter

Det open source Docx2Python-bibliotek gør det nemt for softwareudviklere at udtrække ren tekst fra et Word-dokument i Python-applikationer. Det parser grundigt hvert element i en DOCX-fil. Uanset om du skal udtrække ren tekst, detaljerede tabeller eller den nuancerede struktur af sidehoveder og sidefødder, håndterer dette bibliotek alt. Dets flerniveau-parsningstilgang sikrer, at selv indlejrede elementer nøjagtigt fanges i output-datastrukturen.

Hvordan udtrækker man tekst fra Word DOCX ved hjælp af Python-kode?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Udtrækning af tabeller og billeder fra Word-fil

En af de mest kraftfulde funktioner i Docx2Python er evnen til let at udtrække tabeller fra Word .docx-filer. Biblioteket håndterer både simple og indlejrede tabeller, hvilket gør det ideelt til behandling af komplekse dokumenter. Derudover kan softwareudviklere bruge biblioteket til at udtrække billeder, der er indlejret i Microsoft Word .docx-filer, hvilket kan være nyttigt for applikationer, der kræver billedbehandling eller analyse.

Hvordan udtrækker man tabeller fra Word DOCX-filer via Python API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

Udtræk en specifik sektion af dokumenter via Python

Docx2Python giver muligheder for at tilpasse outputformatet, så udviklere kan skræddersy resultaterne til deres specifikke behov. Det open source Docx2Python-bibliotek leverer fuld funktionalitet til at udtrække en specifik del eller sektion af Word DOCX-dokumenter i Python-applikationer. Udviklere kan vælge kun at udtrække bestemte sektioner af et dokument eller formatere output på en bestemt måde med blot et par linjer kode.

Hvordan udtrækker man en bestemt del af et Word-dokument via Python-biblioteket?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

Bevar layout under konvertering af DOCX

Det er vigtigt at bevare dokumentets oprindelige layout, især når de rumlige relationer mellem elementerne er vigtige. Docx2Python bevarer dette layout ved at konvertere dokumentet til et struktureret format, der afspejler dets oprindelige design. Dette gør det lettere at konvertere DOCX-indhold til andre formater som HTML, PDF eller Markdown, mens det ønskede udseende bevares.

Hvordan bevarer man dokumentlayout via Python API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)