Python API om Word DOCX-inhoud om te zetten naar webklare HTML

Open Source Python-bibliotheek die softwareontwikkelaars in staat stelt Microsoft Word DOCX-inhoud te lezen en om te zetten naar webklare HTML binnen Python-apps.

Wat is Python-Mammoth?

Documentconversie is een cruciale noodzaak geworden voor softwareontwikkelaars die apps bouwen die met tekst communiceren in de digitale omgeving van vandaag. Een soepele overgang tussen bestandsformaten kan compatibiliteit garanderen en tijd besparen bij het werken aan een e-learningplatform, documentautomatiseringstool of contentmanagementsysteem (CMS). Een krachtige bibliotheek in dit domein is Python-Mammoth, een open-source Python-bibliotheek die specifiek is ontworpen om Microsoft Word (DOCX) documenten om te zetten naar schone en semantische HTML. Het ondersteunt semantische HTML-output, het extraheren van afbeeldingen uit DOCX-bestanden, aangepaste stijltoewijzingen, behulpzame waarschuwingen over niet-ondersteunde elementen of mogelijke opmaakproblemen, eenvoudige integratie met Python-gebaseerde applicaties en meer.

Ontwikkeld door Michael Williamson, is Python-Mammoth een open-source Python-bibliotheek die zich richt op het extraheren van de essentiële inhoud uit DOCX-documenten en deze omzetten naar goed gestructureerde HTML. Het primaire doel is om schone en semantische HTML-output te produceren zonder onnodige inline-stijlen of rommelige markup. In tegenstelling tot veel andere documentconversietools, legt het de nadruk op eenvoud en nauwkeurigheid, waardoor de semantiek van het document behouden blijft, zoals koppen, alinea's en lijsten, in plaats van zich te richten op een pixel-perfecte weergave. De bibliotheek ondersteunt het genereren van schone en consistente HTML-rapporten vanuit Word-sjablonen. De focus op eenvoud, schone output en uitbreidbaarheid maakt het een uitstekende keuze voor ontwikkelaars die op zoek zijn naar documentconversieoplossingen.

In één oogopslag

Een overzicht van de functies van Python-Mammoth.

Features Overview

DOCX naar HTML converteren
DOCX-naar-HTML-converter
Alinea's toevoegen
Tabel toevoegen
Afbeelding extraheren
Kop toevoegen
Ondersteuning voor pagina-einde
Kleuren instellen
Tekstuitlijning
Ondersteuning voor bladwijzers

Python-Mammoth

Python-Mammoth ondersteunt de populaire compressiebestandsformaten die hieronder worden vermeld.

Reader

DOCX

Writer

TXT,DOCX

Python-Mammoth

Platformonafhankelijkheid

Python-Mammoth vereist alleen Python 2.6 of hoger.

Python 2.6, 2.7, 3.3, of 3.4
lxml >= 2.3.2

Python-Mammoth

Aan de slag met Python-Mammoth

Python-Mammoth wordt gehost op PyPI, dus het is heel eenvoudig om te installeren. Het kan worden geïnstalleerd met pip met behulp van de volgende opdracht.

Installeer Python-Mammoth via een pip-commando

 pip install mammoth

Word DOCX naar HTML-conversie via Python

De open-source Python-Mammoth bibliotheek maakt het voor softwareontwikkelaars gemakkelijk om Microsoft Word DOCX-bestanden te laden en om te zetten naar HTML binnen Python-toepassingen. Een van de opvallende kenmerken van de bibliotheek is de mogelijkheid om schone, semantische HTML-output te produceren. Het vermijdt het insluiten van onnodige inline-stijlen of eigendomstags, waardoor de uiteindelijke HTML lichtgewicht blijft en gemakkelijk kan worden gestyled met CSS. Het volgende voorbeeld laat zien hoe DOCX-inhoud wordt omgezet naar HTML, klaar om te worden weergegeven of verder te stijlen.

Hoe DOCX-inhoud omzetten naar HTML via de Python API?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Ondersteuning voor aangepaste stijltoewijzing

De Python-Mammoth bibliotheek biedt een reeks aanpassingsopties, waardoor softwareontwikkelaars het proces van tekstextractie nauwkeurig kunnen afstemmen op hun specifieke behoeften. Ontwikkelaars kunnen aangepaste stijltoewijzingen definiëren om te bepalen hoe DOCX-stijlen worden omgezet naar specifieke HTML-elementen. Dit biedt meer flexibiliteit bij het weergeven van documentinhoud. Hier is een voorbeeld dat laat zien hoe de Heading 1-stijl in DOCX expliciet wordt toegewezen aan een HTML h1-tag binnen Python-toepassingen.

Hoe de stijl Heading 1 in DOCX toewijzen aan een HTML H1-tag in Python-apps?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

DOCX-afbeeldingen omzetten naar HTML via Python

De open-source Python-Mammoth bibliotheek maakt het voor softwareontwikkelaars gemakkelijk om afbeeldingen uit Microsoft Word DOCX-bestanden te extraheren en op te nemen in de resulterende HTML. Standaard worden afbeeldingsreferenties opgenomen als URLs, maar ontwikkelaars kunnen aanpassen hoe afbeeldingen worden verwerkt. Hier is een voorbeeld dat laat zien hoe afbeeldingen uit het DOCX-bestand behouden blijven in de HTML-output met behulp van Python-commando's.

Hoe afbeeldingen uit een DOCX-bestand omzetten naar HTML-output via de Python API?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

Lay-outanalyse

De open-source Python-Mammoth bibliotheek kan de lay-out van een Word DOCX-document analyseren en elementen identificeren zoals tabellen, afbeeldingen en tekstblokken. Deze functie is essentieel voor toepassingen die nauwkeurige extractie van lay-outinformatie vereisen.