Створюйте простий і чистий HTML із Microsoft® Word Docs за допомогою Mammoth
Семантично перетворюйте Word на HTML, не турбуючись про те, що вміст буде стерто.
Що таке Мамонт?
Mammoth — це легкий у користуванні, простий і простий пакет, який можна використовувати для перетворення документів Word, створених із Документів Google, Microsoft Word і LibreOffice, у HTML. Будучи конвертером Doc у HTML з відкритим вихідним кодом, Mammoth стане в нагоді для семантичного перетворення будь-якого документа, не зосереджуючись на стилі, кольорі чи шрифтах, що використовуються.
Mammoth надає веб-демонстрації, щоб побачити, як він конвертуватиме документи у HTML, однак однією з найкращих особливостей цього конвертера документів у HTML є багато платформ, які він підтримує, включаючи WordPress, Java/JVM, .NET і Python через PyPI. Якщо у вас є складні документи, створені з багатьма стилями та функціями кольору, можна знайти невідповідність між кінцевим результатом і вхідним файлом.
Незважаючи на це, для простих документів Word, які потрібно перетворити на HTML, Mammoth виконує роботу.
Початок роботи з Mammoth
Рекомендований спосіб встановлення бібліотеки Mammoth — через npm. Будь ласка, використовуйте наступну команду для плавного встановлення
Встановіть Mammoth через npm
npm install mammoth
Перетворіть Microsoft® Word на HTML за допомогою безкоштовного JavaScript API
Mommoth — це API JavaScript з відкритим кодом для безкоштовного перетворення Word у HTML. Він надає багато функцій для форматування та редагування документів Word, коли їх було перетворено на HTML, наприклад додавання заголовків, списків і зображень, виділення курсивом і жирним шрифтом, додавання розривів рядків і багато іншого. Усі зображення в word doc за замовчуванням генеруються в результаті HTML. Ви також можете витягти необроблений текст із будь-якого документа за допомогою функції mammoth.extractRawText, однак вона ігноруватиме форматування вихідного документа.
Перетворіть наявний файл .docx на HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Перетворення стилів із Word на HTML за допомогою JavaScript API
Здебільшого Mammoth справді відображає типові стилі Microsoft Word DOCX з оригінального документа Word у кінцевий результат HTML. Такі елементи, як заголовок 1 у Word, перетворюються на H1 у HTML. Проте Mammoth надає багато функцій для перетворення стилів із документа Word у HTML.
Спеціальна карта стилів
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);