Crie HTML simples e limpo a partir do Microsoft® Word Docs com o Mammoth
Converta semanticamente o Word em HTML sem se preocupar com o apagamento do conteúdo.
O que é mamute?
Mammoth é um pacote fácil de usar, simples e sem complicações que pode ser usado para converter documentos do Word gerados a partir do Google Docs, Microsoft Word e LibreOffice em HTML. Como um conversor de Doc para HTML de código aberto, o Mammoth é útil para converter semanticamente qualquer documento sem se concentrar no estilo, cor ou fontes usadas.
O Mammoth fornece demos da web para ver como ele converterá documentos em HTML, no entanto, um dos melhores recursos deste conversor de documentos para HTML são as muitas plataformas que ele suporta, incluindo WordPress, Java/JVM, .NET e Python por meio de PyPI. Se você tiver documentos complicados criados com muitos estilos e recursos de cores, talvez seja possível encontrar uma incompatibilidade entre o resultado final e o arquivo de entrada.
Independentemente disso, para documentos simples do Word que precisam ser convertidos em HTML, o Mammoth faz o trabalho.
Introdução ao mamute
A maneira recomendada de instalar a biblioteca Mammoth é via npm. Por favor, use o seguinte comando para uma instalação suave
Instale o Mammoth via npm
npm install mammoth
Converta o Microsoft® Word para HTML por meio da API JavaScript gratuita
Mommoth é uma API JavaScript de código aberto para converter Word para HTML gratuitamente. Ele fornece muitos recursos para formatar e editar documentos do Word quando eles foram convertidos em HTML, como adicionar títulos, listas e imagens, itálico e fonte em negrito, adicionar quebras de linha e muito mais. Todas as imagens na palavra doc são geradas no resultado HTML por padrão. Você também pode extrair texto bruto de qualquer documento usando a função mammoth.extractRawText, no entanto, ela ignorará a formatação do documento original.
Converter um arquivo .docx existente em HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Mapear estilos do Word para HTML via API JavaScript
Na maioria das vezes, o Mammoth mapeia estilos DOCX comuns do Microsoft Word de um documento original do Word para o resultado final HTML. Elementos como Título 1 no Word são convertidos em H1 em HTML. No entanto, o Mammoth fornece muitas funções para converter estilos de documentos do Word para HTML.
Mapa de estilo personalizado
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);