Создавайте простой и понятный HTML-код из Microsoft® Word Docs с помощью Mammoth

Семантически конвертируйте Word в HTML, не беспокоясь о стирании содержимого.

Что такое Мамонт?

Mammoth — это простой в использовании, простой и удобный пакет, который можно использовать для преобразования документов Word, созданных из Google Docs, Microsoft Word и LibreOffice, в HTML. Как конвертер Doc в HTML с открытым исходным кодом, Mammoth пригодится для семантического преобразования любого документа, не обращая внимания на стиль, цвет или используемые шрифты.

Mammoth предоставляет веб-демонстрации, чтобы увидеть, как он будет конвертировать документы в HTML, однако одной из лучших функций этого конвертера документов в HTML является множество поддерживаемых им платформ, включая WordPress, Java/JVM, .NET и Python через PyPI. Если у вас есть сложные документы, созданные с использованием многих стилей и цветовых характеристик, может быть возможно найти несоответствие между конечным результатом и входным файлом.

Тем не менее, для простых документов Word, которые необходимо преобразовать в HTML, Mammoth выполняет свою работу.

Previous Next

Начало работы с мамонтом

Рекомендуемый способ установки библиотеки Mammoth — через npm. Пожалуйста, используйте следующую команду для плавной установки

Установить Мамонт через npm

 npm install mammoth 

Преобразование Microsoft® Word в HTML с помощью бесплатного API JavaScript

Mommoth — это JavaScript API с открытым исходным кодом для бесплатного преобразования Word в HTML. Он предоставляет множество функций для форматирования и редактирования документов Word после их преобразования в HTML, таких как добавление заголовков, списков и изображений, выделение курсивом и полужирным шрифтом, добавление разрывов строк и многое другое. Все изображения в документе Word по умолчанию генерируются в HTML-результате. Вы также можете извлечь необработанный текст из любого документа с помощью функции mammoth.extractRawText, однако она будет игнорировать форматирование исходного документа.

Преобразование существующего файла .docx в HTML

var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
  .then(function(result){
    var html = result.value; // The generated HTML
    var messages = result.messages; // Any messages, such as warnings during conversion
  })
  .done(); 

Преобразование стилей из Word в HTML через JavaScript API

По большей части Mammoth отображает общие стили Microsoft Word DOCX из исходного документа Word в конечный результат HTML. Такие элементы, как заголовок 1 в Word, преобразуются в H1 в HTML. Тем не менее, Mammoth предоставляет множество функций для преобразования стилей из документов Word в HTML.

Пользовательская карта стилей

var mammoth = require("mammoth");
var options = {
  styleMap: [
    "p[style-name='Section Title'] => h1:fresh",
    "p[style-name='Subsection Title'] => h2:fresh"
  ]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);
 Русский