Python API for å konvertere Word DOCX‑innhold til web‑klar HTML

Åpen kildekode Python-bibliotek som gjør det mulig for programvareutviklere å lese og konvertere Microsoft Word DOCX‑innhold til web‑klar HTML i Python‑apper.

Hva er Python-Mammoth?

Dokumentkonvertering har blitt en avgjørende nødvendighet for programvareutviklere som lager apper som håndterer tekst i dagens digitale miljø. En jevn overgang mellom filformater kan sikre kompatibilitet og spare tid når man arbeider med en e‑learning‑plattform, dokumentautomatiseringsverktøy eller innholdsstyringssystem (CMS). Et kraftig bibliotek i dette området er Python-Mammoth, et åpen kildekode Python‑bibliotek spesielt designet for å konvertere Microsoft Word (DOCX)-dokumenter til ren og semantisk HTML. Det støtter semantisk HTML‑utdata, uthenting av bilder fra DOCX‑filer, egendefinerte stil‑kartlegginger, nyttige advarsler om ikke‑støttede elementer eller potensielle formateringsproblemer, enkel integrering med Python‑baserte applikasjoner og mye mer.

Utviklet av Michael Williamson, er Python-Mammoth et åpen kildekode Python‑bibliotek som fokuserer på å hente ut det essensielle innholdet fra DOCX‑dokumenter og konvertere dem til velstrukturert HTML. Hovedmålet er å produsere ren og semantisk HTML‑utdata uten unødvendige inline‑stiler eller rotete markup. I motsetning til mange andre dokumentkonverteringsverktøy prioriterer det enkelhet og nøyaktighet, og bevarer dokumentsemantikken som overskrifter, avsnitt og lister i stedet for å fokusere på piksel‑perfekt gjengivelse. Biblioteket støtter generering av rene og konsistente HTML‑rapporter fra Word‑maler. Dets fokus på enkelhet, ren utdata og utvidbarhet gjør det til et utmerket valg for utviklere som søker dokumentkonverteringsløsninger.

På et øyeblikk

En oversikt over Python-Mammoth-funksjonene.

Features Overview

Konverter DOCX til HTML
DOCX‑til‑HTML‑konverter
Legg til avsnitt
Legg til tabell
Hent bilde
Legg til overskrift
Støtte for sideskift
Angi farger
Tekstjustering
Støtte for bokmerker

Python-Mammoth

Python-Mammoth støtter populære komprimeringsfilformater som er oppført nedenfor.

Reader

DOCX

Writer

TXT,DOCX

Python-Mammoth

Plattformuavhengighet

Python-Mammoth krever kun Python 2.6 eller nyere

Python 2.6, 2.7, 3.3 eller 3.4
lxml >= 2.3.2

Python-Mammoth

Kom i gang med Python-Mammoth

Python-Mammoth er vert på PyPI, så det er veldig enkelt å installere. Det kan installeres med pip ved hjelp av følgende kommando.

Installer Python-Mammoth via pip-kommando

 pip install mammoth

Word DOCX til HTML-konvertering via Python

Det åpne kildekode‑biblioteket Python-Mammoth gjør det enkelt for programvareutviklere å laste inn og konvertere Microsoft Word DOCX‑filer til HTML i Python‑applikasjoner. En av bibliotekets fremtredende funksjoner er evnen til å produsere ren, semantisk HTML‑utdata. Det unngår å embedde unødvendige inline‑stiler eller proprietære tagger, og sikrer at den endelige HTML‑koden forblir lettvekt og enkel å style med CSS. Følgende eksempel viser hvordan DOCX‑innhold konverteres til HTML, klar til å vises eller styles videre.

Hvordan konvertere DOCX‑innhold til HTML via Python API?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Støtte for egendefinert stil‑kartlegging

Python-Mammoth‑biblioteket gir en rekke tilpasningsalternativer, slik at programvareutviklere kan finjustere tekstuttrekkingsprosessen for å passe deres spesifikke behov. Utviklere kan definere egendefinerte stil‑kartlegginger for å styre hvordan DOCX‑stiler konverteres til spesifikke HTML‑elementer. Dette gir større fleksibilitet i gjengivelse av dokumentinnhold. Her er et eksempel som viser hvordan Heading 1‑stil i DOCX eksplicit kartlegges til en HTML‑h1‑tag i Python‑applikasjoner.

Hvordan MAPpe Heading 1‑stil i DOCX til en HTML H1‑tag i Python‑apper?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

Konverter DOCX‑bilder til HTML via Python

Det åpne kildekode‑biblioteket Python-Mammoth gjør det enkelt for programvareutviklere å hente ut bilder fra Microsoft Word DOCX‑filer og inkludere dem i den resulterende HTML‑koden. Som standard blir bildereferanser inkludert som URLer, men utviklere kan tilpasse hvordan bilder håndteres. Her er et eksempel som viser hvordan bilder fra DOCX‑filen bevares i HTML‑utdata ved hjelp av Python‑kommandoer.

Hvordan konvertere bilder fra DOCX‑fil til HTML‑utdata via Python API?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

Oppsettsanalyse

Det åpne kildekode‑biblioteket Python-Mammoth kan analysere oppsettet i et Word DOCX‑dokument, og identifisere elementer som tabeller, bilder og tekstblokker. Denne funksjonen er essensiell for applikasjoner som krever nøyaktig uttrekk av oppsettsinformasjon.