Gratis Python‑API för att extrahera text, tabeller, bilder från DOCX‑filer

Öppen källkod Python‑bibliotek för att extrahera text, bilder, tabeller, sidhuvuden och sidfötter eller andra specifika delar av Word DOCX‑dokument i Python‑appar.

Vad är Docx2Python‑biblioteket?

I dagens digitala era är effektiv bearbetning och extrahering av data från dokument viktigare än någonsin. Mjukvaruutvecklare stöter ofta på Microsoft Word DOCX‑filer som innehåller värdefull information, men att parsra dem kan vara utmanande. Docx2Python är ett Python‑bibliotek som låter mjukvaruutvecklare enkelt extrahera text, tabeller, bilder och annat innehåll från .docx‑filer. Till skillnad från andra dokumentbehandlingsbibliotek är Docx2Python specifikt utformat för att leverera en ren, strukturerad output som är lätt att arbeta med. Detta gör det till ett utmärkt val för utvecklare som behöver programatiskt parsra och analysera Word‑dokument. Biblioteket är open‑source, vilket innebär att det är fritt tillgängligt för alla att använda, modifiera och distribuera.

Docx2Python är ett kraftfullt verktyg som är konstruerat för att läsa DOCX‑filer och konvertera deras innehåll till nästlade Python‑datastrukturer. Det är ett robust och flexibelt open‑source‑bibliotek som förenklar extraheringen av strukturerad data från DOCX‑filer. Biblioteket stöder omfattande parsning, automatiserad rapportgenerering, avancerad dokumentbehandling, strukturerad dataoutput, bevarande av layout och så vidare. Mjukvaruutvecklare kan konvertera DOCX‑innehåll till andra format (som HTML eller Markdown) samtidigt som de bevarar det avsedda utseendet. Genom att omfamna open‑source‑lösningar som Docx2Python kan utvecklare minska manuellt arbete, främja innovation och skapa applikationer som verkligen förändrar hur vi interagerar med och analyserar textdata.

På ett ögonblick

En översikt över Docx2Python‑funktioner.

Features Overview

Skapa DOCX
Modifiera DOCX
Lägg till stycken
Lägg till tabell
Infoga bild
Textformatering
Lägg till rubrik
Sidbrytning
Ange färger
Textjustering
Stöd för bokmärken

Docx2Python

Docx2Python stödjer populära komprimeringsfilformat som listas nedan.

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

Plattformsoberoende

Docx2Python kräver bara Python 2.6 eller senare.

Python 2.6, 2.7, 3.3 eller 3.4
lxml >= 2.3.2

Docx2Python

Komma igång med Docx2Python

Docx2Python finns på PyPI, så det är mycket enkelt att installera. Det kan installeras med pip med följande kommando.

Installera Docx2Python via pip‑kommando

pip install docx2python

Det kan också installeras via easy_install men rekommenderas inte.

Extrahera text för Word‑dokument

Det öppna källkods‑biblioteket Docx2Python gör det enkelt för mjukvaruutvecklare att extrahera ren text från ett Word‑dokument i Python‑applikationer. Det parsar omfattande varje element i en DOCX‑fil. Oavsett om du behöver extrahera ren text, detaljerade tabeller eller den subtila strukturen av sidhuvuden och sidfötter, hanterar detta bibliotek allt. Dess flernivå‑parsningstillvägagångssätt säkerställer att även nästlade element fångas exakt i output‑datastrukturen.

Hur extraherar man text från Word DOCX med Python‑kod?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Tabell‑ och bildextrahering från Word‑fil

En av de mest kraftfulla funktionerna i Docx2Python är dess förmåga att enkelt extrahera tabeller från Word .docx‑filer. Biblioteket hanterar både enkla och nästlade tabeller, vilket gör det idealiskt för behandling av komplexa dokument. Dessutom kan mjukvaruutvecklare använda biblioteket för att extrahera bilder inbäddade i Microsoft Word .docx‑filer, vilket kan vara användbart för applikationer som kräver bildbehandling eller analys.

Hur extraherar man tabeller från Word DOCX‑filer via Python‑API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

Extrahera specifik sektion av dokument via Python

Docx2Python erbjuder alternativ för att anpassa output‑formatet, så att utvecklare kan skräddarsy resultaten efter sina specifika behov. Det öppna källkods‑biblioteket Docx2Python tillhandahåller komplett funktionalitet för att extrahera en viss del eller sektion av Word DOCX‑dokument i Python‑applikationer. Utvecklare kan välja att extrahera endast specifika sektioner av ett dokument eller formatera output på ett särskilt sätt med bara ett par kodrader.

Hur extraherar man en specifik del av ett Word‑dokument via Python‑biblioteket?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

Behåll layout vid konvertering av DOCX

Att behålla det ursprungliga layoutet av ett dokument är viktigt, särskilt när de rumsliga relationerna mellan element är betydelsefulla. Docx2Python bevarar detta layout genom att konvertera dokumentet till ett strukturerat format som speglar dess ursprungliga design. Detta gör det enklare att konvertera DOCX‑innehåll till andra format som HTML, PDF eller Markdown samtidigt som den avsedda utseendet bevaras.

Hur bevarar man dokumentlayout via Python‑API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)