Izveidojiet vienkāršu un skaidru HTML no Microsoft® Word dokumentiem, izmantojot Mammoth
Semantiski konvertējiet Word par HTML, neuztraucoties par satura dzēšanu.
Kas ir Mamuts?
Mammoth ir viegli lietojama, vienkārša un vienkārša pakotne, ko var izmantot, lai Word dokumentus, kas ģenerēti no Google dokumentiem, Microsoft Word un LibreOffice, pārveidotu par HTML. Kā atvērtā pirmkoda dokumentu pārveidotājs HTML formātā Mammoth ir noderīgs, lai semantiski pārveidotu jebkuru dokumentu, nekoncentrējoties uz izmantoto stilu, krāsu vai fontiem.
Mammoth nodrošina tīmekļa demonstrācijas, lai redzētu, kā tas pārveidos dokumentus par HTML, tomēr viena no labākajām šī dokumentu pārveidotāja HTML funkcijām ir daudzās platformas, ko tas atbalsta, tostarp WordPress, Java/JVM, .NET un Python, izmantojot PyPI. Ja jums ir sarežģīti dokumenti, kas izveidoti ar daudziem stiliem un krāsu funkcijām, iespējams, var atrast neatbilstību starp gala rezultātu un ievades failu.
Neatkarīgi no tā, vienkāršiem Word dokumentiem, kas jāpārvērš HTML formātā, Mammoth paveic darbu.
Darba sākšana ar Mamutu
Ieteicamais veids, kā instalēt Mammoth bibliotēku, ir npm. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai
Instalējiet Mammoth, izmantojot npm
npm install mammoth
Pārveidojiet Microsoft® Word par HTML, izmantojot bezmaksas JavaScript API
Mommoth ir atvērtā pirmkoda JavaScript API, lai bez maksas pārvērstu Word par HTML. Tas nodrošina daudzas funkcijas, lai formatētu un rediģētu Word dokumentus, kad tie ir pārveidoti HTML formātā, piemēram, virsrakstu, sarakstu un attēlu pievienošana, slīpraksts un treknraksts, rindiņu pārtraukumu pievienošana un daudz kas cits. Visi Word doc attēli pēc noklusējuma tiek ģenerēti HTML rezultātos. Varat arī izvilkt neapstrādātu tekstu no jebkura dokumenta, izmantojot funkciju mammoth.extractRawText, taču tā ignorēs oriģinālā dokumenta formatējumu.
Konvertējiet esošu .docx failu uz HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Kartējiet stilus no Word uz HTML, izmantojot JavaScript API
Vairumā gadījumu Mammoth HTML galarezultātā kartē kopējos Microsoft Word DOCX stilus no oriģināla Word dokumenta. Elementi, piemēram, 1. virsraksts programmā Word, tiek pārveidoti par H1 HTML. Tomēr Mammoth nodrošina daudzas funkcijas, lai pārveidotu stilus no Word doc uz HTML.
Pielāgota stila karte
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);