1. Produkte
  2.   Textverarbeitung
  3.   Python
  4.   Python-Mammoth
 
  

Python‑API zum Konvertieren von Word‑DOCX‑Inhalt in web‑fertiges HTML

Open‑Source‑Python‑Bibliothek, die es Software‑Entwicklern ermöglicht, Microsoft‑Word‑DOCX‑Inhalt in web‑fertiges HTML innerhalb von Python‑Anwendungen zu lesen und zu konvertieren.

Was ist Python-Mammoth?

Die Dokumentenkonvertierung ist für Software‑Entwickler, die Apps erstellen, die mit Text interagieren, in der heutigen digitalen Umgebung zu einer entscheidenden Notwendigkeit geworden. Ein reibungsloser Übergang zwischen Dateiformaten kann Kompatibilität gewährleisten und Zeit sparen, etwa bei einer E‑Learning‑Plattform, einem Dokumenten‑Automatisierungstool oder einem Content‑Management‑System (CMS). Eine leistungsstarke Bibliothek in diesem Bereich ist Python‑Mammoth, eine Open‑Source‑Python‑Bibliothek, die speziell zum Konvertieren von Microsoft‑Word‑(DOCX‑)Dokumenten in sauberes und semantisches HTML entwickelt wurde. Sie unterstützt semantische HTML‑Ausgabe, das Extrahieren von Bildern aus DOCX‑Dateien, benutzerdefinierte Stilzuordnungen, hilfreiche Warnungen zu nicht unterstützten Elementen oder potenziellen Formatierungsproblemen, einfache Integration in Python‑basierte Anwendungen und vieles mehr.

Entwickelt von Michael Williamson ist Python‑Mammoth eine Open‑Source‑Python‑Bibliothek, die sich darauf konzentriert, den wesentlichen Inhalt aus DOCX‑Dokumenten zu extrahieren und sie in gut strukturiertes HTML zu konvertieren. Ihr Hauptziel ist es, saubere und semantische HTML‑Ausgabe zu erzeugen, ohne unnötige Inline‑Stile oder überladenes Markup. Im Gegensatz zu vielen anderen Dokumentenkonvertierungstools legt sie Wert auf Einfachheit und Genauigkeit, bewahrt Dokumenten‑Semantik wie Überschriften, Absätze und Listen, anstatt eine pixelgenaue Darstellung zu forcieren. Die Bibliothek unterstützt die Erzeugung sauberer und konsistenter HTML‑Berichte aus Word‑Vorlagen. Ihr Fokus auf Einfachheit, saubere Ausgabe und Erweiterbarkeit macht sie zu einer ausgezeichneten Wahl für Entwickler, die Dokumentenkonvertierungslösungen suchen.

Previous Next

Erste Schritte mit Python-Mammoth

Python‑Mammoth ist auf PyPI gehostet, daher ist die Installation sehr einfach. Sie kann mit pip über den folgenden Befehl installiert werden.

Python-Mammoth via pip‑Befehl installieren

 pip install mammoth 

Word DOCX zu HTML Konvertierung via Python

Die Open‑Source‑Bibliothek Python‑Mammoth erleichtert Software‑Entwicklern das Laden und Konvertieren von Microsoft‑Word‑DOCX‑Dateien in HTML innerhalb von Python‑Anwendungen. Eine herausragende Eigenschaft der Bibliothek ist ihre Fähigkeit, saubere, semantische HTML‑Ausgabe zu erzeugen. Sie vermeidet das Einbetten unnötiger Inline‑Stile oder proprietärer Tags und stellt sicher, dass das finale HTML leichtgewichtig bleibt und einfach mit CSS zu stylen ist. Das folgende Beispiel zeigt, wie DOCX‑Inhalt in HTML konvertiert wird, bereit zur Anzeige oder weiteren Gestaltung.

Wie konvertiert man DOCX‑Inhalt in HTML via Python‑API?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Unterstützung benutzerdefinierter Stilzuordnungen

Die Python‑Mammoth‑Bibliothek bietet eine Reihe von Anpassungsoptionen, die es Software‑Entwicklern ermöglichen, den Text‑Extraktionsprozess fein abzustimmen, um ihren spezifischen Anforderungen gerecht zu werden. Entwickler können benutzerdefinierte Stilzuordnungen festlegen, um zu bestimmen, wie DOCX‑Stile in bestimmte HTML‑Elemente konvertiert werden. Das ermöglicht mehr Flexibilität beim Rendern von Dokumentinhalten. Hier ein Beispiel, das zeigt, wie der Heading‑1‑Stil in DOCX explizit auf ein HTML‑h1‑Tag in Python‑Anwendungen abgebildet wird.

Wie mappt man den Heading 1‑Stil in DOCX auf ein HTML H1‑Tag innerhalb von Python‑Apps?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

DOCX‑Bilder via Python in HTML konvertieren

Die Open‑Source‑Bibliothek Python‑Mammoth erleichtert Software‑Entwicklern das Extrahieren von Bildern aus Microsoft‑Word‑DOCX‑Dateien und deren Einbindung in das resultierende HTML. Standardmäßig werden Bildreferenzen als URLs eingefügt, jedoch können Entwickler anpassen, wie Bilder verarbeitet werden. Das folgende Beispiel zeigt, wie Bilder aus der DOCX‑Datei in der HTML‑Ausgabe mittels Python‑Befehlen erhalten bleiben.

Wie konvertiert man Bilder aus einer DOCX‑Datei in HTML‑Ausgabe via Python‑API?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Layout‑Analyse

Die Open‑Source‑Bibliothek Python‑Mammoth kann das Layout eines Word‑DOCX‑Dokuments analysieren und Elemente wie Tabellen, Bilder und Textblöcke identifizieren. Diese Funktion ist für Anwendungen unerlässlich, die eine genaue Extraktion von Layout‑Informationen benötigen.

 Deutsch