Gratis Python API for å hente ut tekst, tabeller, bilder fra DOCX‑filer

Åpen kildekode Python-bibliotek for å hente ut tekst, bilder, tabeller, overskrifter og bunntekster eller andre spesifikke deler av Word DOCX-dokumenter i Python‑applikasjoner.

Hva er Docx2Python-biblioteket?

I dagens digitale tidsalder er effektiv behandling og uttrekk av data fra dokumenter viktigere enn noensinne. Programvareutviklere støter ofte på Microsoft Word DOCX‑filer som inneholder verdifull informasjon, men som kan være vanskelig å analysere. Docx2Python er et Python‑bibliotek som gjør det mulig for programvareutviklere å hente ut tekst, tabeller, bilder og annet innhold fra .docx‑filer med letthet. I motsetning til andre dokumentbehandlingsbiblioteker er Docx2Python spesielt designet for å levere en ren, strukturert utdata som er enkel å arbeide med. Dette gjør det til et utmerket valg for utviklere som trenger å parse og analysere Word‑dokumenter programmessig. Biblioteket er åpen kildekode, noe som betyr at det er fritt tilgjengelig for alle å bruke, endre og distribuere.

Docx2Python er et kraftig verktøy designet for å lese DOCX‑filer og konvertere innholdet til innleirede Python‑datastrukturer. Det er et robust og fleksibelt åpen kildekode‑bibliotek som forenkler uttrekk av strukturert data fra DOCX‑filer. Biblioteket støtter omfattende parsing, automatisert rapportgenerering, avansert dokumentbehandling, strukturert data‑utdata, bevaring av oppsett, og mer. Programvareutviklere kan konvertere DOCX‑innhold til andre formater (som HTML eller Markdown) samtidig som de bevarer den tiltenkte utseendet. Ved å omfavne åpen kildekode‑løsninger som Docx2Python kan utviklere redusere manuelt arbeid, fremme innovasjon og lage applikasjoner som virkelig endrer måten vi samhandler med og analyserer tekstdata på.

På et øyeblikk

En oversikt over Docx2Python-funksjonene.

Features Overview

Opprett DOCX
Endre DOCX
Legg til avsnitt
Legg til tabell
Sett inn bilde
Tekstformatering
Legg til overskrift
Sideskift
Sett farger
Tekstjustering
Støtte for bokmerker

Docx2Python

Docx2Python støtter populære komprimeringsfilformater listet nedenfor.

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

Plattformuavhengighet

Docx2Python krever kun Python 2.6 eller nyere

Python 2.6, 2.7, 3.3, eller 3.4
lxml >= 2.3.2

Docx2Python

Kom i gang med Docx2Python

Docx2Python er vert på PyPI, så det er veldig enkelt å installere. Det kan installeres med pip ved å bruke følgende kommando.

Installer Docx2Python via pip-kommando

pip install docx2python

Det kan også installeres via easy_install, men dette anbefales ikke.

Uttrekk av tekst fra Word-dokumenter

Det åpne kildekode‑biblioteket Docx2Python gjør det enkelt for programvareutviklere å hente ut ren tekst fra et Word‑dokument i Python‑applikasjoner. Det parser grundig hvert element i en DOCX‑fil. Enten du trenger å hente ut ren tekst, detaljerte tabeller eller den nyanserte strukturen i overskrifter og bunntekster, håndterer dette biblioteket alt. Dets flernivå‑parsing‑tilnærming sikrer at selv innleirede elementer blir nøyaktig fanget i utdata‑datastrukturen.

Hvordan hente ut tekst fra Word DOCX ved bruk av Python‑kode?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Uttrekk av tabeller og bilder fra Word‑fil

En av de mest kraftfulle funksjonene i Docx2Python er evnen til å hente ut tabeller fra Word‑.docx‑filer med letthet. Biblioteket håndterer både enkle og innleirede tabeller, noe som gjør det ideelt for behandling av komplekse dokumenter. I tillegg kan programvareutviklere bruke biblioteket til å hente ut bilder som er innebygd i Microsoft Word‑.docx‑filer, noe som kan være nyttig for applikasjoner som krever bildebehandling eller analyse.

Hvordan hente ut tabeller fra Word DOCX‑filer via Python API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

Uttrekk av spesifikk seksjon av dokumenter via Python

Docx2Python gir muligheter til å tilpasse utdataformatet, slik at utviklere kan skreddersy resultatene til sine spesifikke behov. Det åpne kildekode‑biblioteket Docx2Python tilbyr full funksjonalitet for å hente ut en bestemt del eller seksjon av Word DOCX‑dokumenter i Python‑applikasjoner. Utviklere kan velge å bare hente ut spesifikke seksjoner av et dokument eller formatere utdata på en spesiell måte med kun et par linjer kode.

Hvordan hente ut en bestemt del av et Word-dokument via Python‑biblioteket?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

Bevar oppsett ved konvertering av DOCX

Det er viktig å bevare dokumentets opprinnelige oppsett, spesielt når de romlige relasjonene mellom elementer er viktige. Docx2Python beholder dette oppsettet ved å konvertere dokumentet til et strukturert format som speiler dets opprinnelige design. Dette gjør det enklere å konvertere DOCX‑innhold til andre formater som HTML, PDF eller Markdown, samtidig som den tiltenkte visningen bevares.

Hvordan bevare dokumentoppsett via Python API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)