Создавайте простой и понятный HTML-код из Microsoft® Word Docs с помощью Mammoth
Семантически конвертируйте Word в HTML, не беспокоясь о стирании содержимого.
Что такое Мамонт?
Mammoth — это простой в использовании, простой и удобный пакет, который можно использовать для преобразования документов Word, созданных из Google Docs, Microsoft Word и LibreOffice, в HTML. Как конвертер Doc в HTML с открытым исходным кодом, Mammoth пригодится для семантического преобразования любого документа, не обращая внимания на стиль, цвет или используемые шрифты.
Mammoth предоставляет веб-демонстрации, чтобы увидеть, как он будет конвертировать документы в HTML, однако одной из лучших функций этого конвертера документов в HTML является множество поддерживаемых им платформ, включая WordPress, Java/JVM, .NET и Python через PyPI. Если у вас есть сложные документы, созданные с использованием многих стилей и цветовых характеристик, может быть возможно найти несоответствие между конечным результатом и входным файлом.
Тем не менее, для простых документов Word, которые необходимо преобразовать в HTML, Mammoth выполняет свою работу.
Начало работы с мамонтом
Рекомендуемый способ установки библиотеки Mammoth — через npm. Пожалуйста, используйте следующую команду для плавной установки
Установить Мамонт через npm
npm install mammoth
Преобразование Microsoft® Word в HTML с помощью бесплатного API JavaScript
Mommoth — это JavaScript API с открытым исходным кодом для бесплатного преобразования Word в HTML. Он предоставляет множество функций для форматирования и редактирования документов Word после их преобразования в HTML, таких как добавление заголовков, списков и изображений, выделение курсивом и полужирным шрифтом, добавление разрывов строк и многое другое. Все изображения в документе Word по умолчанию генерируются в HTML-результате. Вы также можете извлечь необработанный текст из любого документа с помощью функции mammoth.extractRawText, однако она будет игнорировать форматирование исходного документа.
Преобразование существующего файла .docx в HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Преобразование стилей из Word в HTML через JavaScript API
По большей части Mammoth отображает общие стили Microsoft Word DOCX из исходного документа Word в конечный результат HTML. Такие элементы, как заголовок 1 в Word, преобразуются в H1 в HTML. Тем не менее, Mammoth предоставляет множество функций для преобразования стилей из документов Word в HTML.
Пользовательская карта стилей
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);