API Python pour convertir le contenu d'un DOCX Word en HTML prêt pour le web

Bibliothèque Python Open Source qui permet aux développeurs de logiciels de lire et de convertir le contenu Microsoft Word DOCX en HTML prêt pour le web dans les applications Python.

Qu'est-ce que Python-Mammoth ?

La conversion de documents est devenue une nécessité cruciale pour les développeurs créant des applications qui interagissent avec du texte dans l'environnement numérique actuel. Une transition fluide entre les formats de fichiers peut garantir la compatibilité et gagner du temps lors du travail sur une plateforme d'e‑learning, un outil d'automatisation de documents ou un système de gestion de contenu (CMS). Une bibliothèque puissante dans ce domaine est Python‑Mammoth, une bibliothèque Python open source spécialement conçue pour convertir les documents Microsoft Word (DOCX) en HTML propre et sémantique. Elle prend en charge la sortie HTML sémantique, l'extraction d'images des fichiers DOCX, des mappings de style personnalisés, des avertissements utiles concernant les éléments non pris en charge ou les problèmes potentiels de formatage, une intégration facile avec les applications basées sur Python et bien plus encore.

Développé par Michael Williamson, Python‑Mammoth est une bibliothèque Python open source axée sur l'extraction du contenu essentiel des documents DOCX et sa conversion en HTML bien structuré. Son objectif principal est de produire une sortie HTML propre et sémantique sans styles en ligne inutiles ni balisage encombré. Contrairement à de nombreux autres outils de conversion de documents, il privilégie la simplicité et la précision, en préservant la sémantique du document comme les titres, paragraphes et listes plutôt que de se concentrer sur une représentation pixel‑par‑pixel. La bibliothèque prend en charge la génération de rapports HTML propres et cohérents à partir de modèles Word. Son accent sur la simplicité, une sortie propre et l'extensibilité en fait un excellent choix pour les développeurs cherchant des solutions de conversion de documents.

Previous Next

Commencer avec Python-Mammoth

Python‑Mammoth est hébergé sur PyPI, il est donc très simple à installer. Il peut être installé avec pip en utilisant la commande suivante.

Installer Python-Mammoth via la commande pip

 pip install mammoth 

Conversion de Word DOCX en HTML via Python

La bibliothèque open source Python‑Mammoth facilite aux développeurs le chargement et la conversion d'un fichier Microsoft Word DOCX en HTML dans les applications Python. L'une des fonctionnalités remarquables de la bibliothèque est sa capacité à produire une sortie HTML propre et sémantique. Elle évite d'embedder des styles en ligne inutiles ou des balises propriétaires, assurant que le HTML final reste léger et facile à styler avec CSS. L'exemple suivant montre comment le contenu DOCX est converti en HTML, prêt à être affiché ou stylisé davantage.

Comment convertir le contenu DOCX en HTML via l'API Python ?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Support du mapping de style personnalisé

La bibliothèque Python‑Mammoth offre une gamme d'options de personnalisation, permettant aux développeurs d'affiner le processus d'extraction de texte selon leurs besoins spécifiques. Les développeurs peuvent définir des mappings de style personnalisés pour contrôler la façon dont les styles DOCX sont convertis en éléments HTML spécifiques. Cela permet une plus grande flexibilité dans le rendu du contenu du document. Voici un exemple montrant comment le style Heading 1 du DOCX est explicitement mappé à une balise h1 HTML dans les applications Python.

Comment MAP le style Heading 1 du DOCX à une balise HTML H1 dans les applications Python ?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Convertir les images DOCX en HTML via Python

La bibliothèque open source Python‑Mammoth facilite aux développeurs l'extraction d'images à partir des fichiers Microsoft Word DOCX et les inclut dans le HTML résultant. Par défaut, les références d'images sont incluses sous forme d'URL, mais les développeurs peuvent personnaliser la façon dont les images sont gérées. Voici un exemple montrant comment les images du fichier DOCX sont préservées dans la sortie HTML en utilisant des commandes Python.

Comment convertir les images d'un fichier DOCX en sortie HTML via l'API Python ?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Analyse de la mise en page

La bibliothèque open source Python‑Mammoth peut analyser la mise en page d'un document Word DOCX, en identifiant des éléments tels que des tableaux, des images et des blocs de texte. Cette fonctionnalité est essentielle pour les applications qui nécessitent une extraction précise des informations de mise en page.

 Français