使用 Mammoth 从 Microsoft® Word Docs 创建简单而干净的 HTML

在语义上将 Word 转换为 HTML,而不必担心内容被删除。

什么是猛犸象?

Mammoth 是一个易于使用、简单、简洁的软件包,可用于将从 Google Docs、Microsoft Word 和 LibreOffice 生成的 Word 文档转换为 HTML。作为一个开源的 Doc 到 HTML 转换器,Mammoth 可以方便地在语义上转换任何文档,而无需关注所使用的样式、颜色或字体。

Mammoth 提供了 Web 演示以了解如何将文档转换为 HTML,但是,此 Doc 转换器到 HTML 的最佳功能之一是它支持的许多平台,包括 WordPress、Java/JVM、.NET 和 Python 通过 PyPI。如果您创建了具有多种样式和颜色特征的复杂文档,则可能会发现最终结果与输入文件不匹配。

无论如何,对于需要转换为 HTML 的简单 Word 文档,Mammoth 可以完成工作。

Previous Next

猛犸象入门

安装 Mammoth 库的推荐方法是通过 npm。请使用以下命令顺利安装

通过 npm 安装 Mammoth

 npm install mammoth 

通过免费的 JavaScript API 将 Microsoft® Word 转换为 HTML

Mommoth 是一个开源的 JavaScript API,可以免费将 Word 转换为 HTML。它提供了许多功能来格式化和编辑转换为 HTML 的 Word 文档,例如添加标题、列表和图像、斜体和粗体字体、添加换行符等等。默认情况下,word doc 中的所有图像都生成在 HTML 结果中。您还可以使用 mammoth.extractRawText 函数从任何文档中提取原始文本,但是,它将忽略原始文档中的格式。

将现有的 .docx 文件转换为 HTML

var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
  .then(function(result){
    var html = result.value; // The generated HTML
    var messages = result.messages; // Any messages, such as warnings during conversion
  })
  .done(); 

通过 JavaScript API 将样式从 Word 映射到 HTML

在大多数情况下,Mammoth 确实将常见的 Microsoft Word DOCX 样式从原始 Word 文档映射到 HTML 最终结果。 Word 中的 Heading 1 等元素将转换为 HTML 中的 H1。但是,Mammoth 确实提供了许多将样式从 Word doc 转换为 HTML 的功能。

自定义样式图

var mammoth = require("mammoth");
var options = {
  styleMap: [
    "p[style-name='Section Title'] => h1:fresh",
    "p[style-name='Subsection Title'] => h2:fresh"
  ]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);
 中国人