Mammoth を使用して Microsoft® Word Docs からシンプルでクリーンな HTML を作成する
コンテンツが消去されることを心配することなく、Word を意味的に HTML に変換します。
マンモスとは?
Mammoth は、Google Docs、Microsoft Word、および LibreOffice から生成された Word ドキュメントを HTML に変換するために使用できる、使いやすく、シンプルで手間のかからないパッケージです。オープン ソースの Doc から HTML へのコンバーターである Mammoth は、使用されているスタイル、色、またはフォントに集中することなく、任意のドキュメントを意味的に変換するのに便利です。
Mammoth は、ドキュメントを HTML に変換する方法を確認するための Web デモを提供していますが、このドキュメントから HTML へのコンバーターの最も優れた機能の 1 つは、WordPress、Java/JVM、.NET、および PyPI を介した Python を含む多くのプラットフォームをサポートしていることです。多くのスタイルと色の機能を使用して作成された複雑なドキュメントがある場合、最終結果と入力ファイルの間に不一致が見つかる可能性があります。
いずれにせよ、HTML に変換する必要がある単純な Word 文書の場合、Mammoth はその仕事を成し遂げます。
マンモス入門
Mammoth ライブラリをインストールする推奨される方法は、npm を使用することです。スムーズなインストールのために次のコマンドを使用してください
npm経由でマンモスをインストール
npm install mammoth
無料の JavaScript API を使用して Microsoft® Word を HTML に変換する
Mommoth は、Word を無料で HTML に変換するオープン ソースの JavaScript API です。見出し、リスト、画像の追加、イタリック体と太字のフォント、改行の追加など、HTML に変換された Word ドキュメントを書式設定および編集するための多くの機能を提供します。 Word doc 内のすべての画像は、デフォルトで HTML 結果に生成されます。 mammoth.extractRawText 関数を使用して、任意のドキュメントから未加工のテキストを抽出することもできますが、元のドキュメントの書式は無視されます。
既存の .docx ファイルを HTML に変換する
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
JavaScript API を介して Word から HTML にスタイルをマップする
ほとんどの場合、Mammoth は一般的な Microsoft Word DOCX スタイルを元の Word ドキュメントから HTML 最終結果にマッピングします。 Word の見出し 1 などの要素は、HTML では H1 に変換されます。ただし、Mammoth には、スタイルを Word doc から HTML に変換するための多くの関数が用意されています。
カスタム スタイル マップ
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);