Créez du code HTML simple et propre à partir de Microsoft® Word Docs avec Mammoth
Convertissez sémantiquement Word en HTML sans vous soucier de l'effacement du contenu.
C'est quoi Mammouth ?
Mammoth est un package facile à utiliser, simple et sans tracas qui peut être utilisé pour convertir des documents Word générés à partir de Google Docs, Microsoft Word et LibreOffice en HTML. En tant que convertisseur open source Doc vers HTML, Mammoth est pratique pour convertir sémantiquement n'importe quel document sans se concentrer sur le style, la couleur ou les polices utilisées.
Mammoth fournit des démonstrations Web pour voir comment il convertira les documents en HTML, cependant, l'une des meilleures fonctionnalités de ce convertisseur de documents en HTML est les nombreuses plates-formes qu'il prend en charge, notamment WordPress, Java/JVM, .NET et Python via PyPI. Si vous avez des documents complexes créés avec de nombreux styles et fonctionnalités de couleur, il peut être possible de trouver une incompatibilité entre le résultat final et le fichier d'entrée.
Quoi qu'il en soit, pour les documents Word simples qui doivent être convertis en HTML, Mammoth fait le travail.
Premiers pas avec Mammouth
La méthode recommandée pour installer la bibliothèque Mammoth est via npm. Veuillez utiliser la commande suivante pour une installation fluide
Installer Mammoth via npm
npm install mammoth
Convertir Microsoft® Word en HTML via l'API JavaScript gratuite
Mommoth est une API JavaScript open source permettant de convertir gratuitement Word en HTML. Il fournit de nombreuses fonctionnalités pour formater et modifier les documents Word lorsqu'ils ont été convertis en HTML, tels que l'ajout d'en-têtes, de listes et d'images, la mise en italique et la police en gras, l'ajout de sauts de ligne, et bien plus encore. Toutes les images du mot doc sont générées dans le résultat HTML par défaut. Vous pouvez également extraire du texte brut de n'importe quel document en utilisant la fonction mammoth.extractRawText, cependant, il ignorera la mise en forme du document d'origine.
Convertir un fichier .docx existant en HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Mapper les styles de Word à HTML via l'API JavaScript
Pour la plupart, Mammoth mappe les styles Microsoft Word DOCX courants d'un document Word original dans le résultat final HTML. Les éléments tels que Titre 1 dans Word sont convertis en H1 en HTML. Cependant, Mammoth fournit de nombreuses fonctions pour convertir les styles de Word doc en HTML.
Carte de style personnalisé
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);