Word DOCX コンテンツを Web 対応 HTML に変換する Python API

ソフトウェア開発者が Python アプリ内で Microsoft Word DOCX コンテンツを読み込み、Web 対応 HTML に変換できるオープンソース Python ライブラリ。

Python-Mammoth とは何ですか?

文書変換は、今日のデジタル環境でテキストとやり取りするアプリを作成するソフトウェア開発者にとって重要な必要条件となっています。ファイル形式間のスムーズな変換は、互換性を保証し、eラーニングプラットフォーム、文書自動化ツール、コンテンツ管理システム(CMS)で作業する際の時間を節約できます。この分野で強力なライブラリの1つが Python-Mammoth で、Microsoft Word(DOCX)ドキュメントをクリーンで意味的な HTML に変換するよう特別に設計されたオープンソース Python ライブラリです。意味的な HTML 出力のサポート、DOCX ファイルからの画像抽出、カスタムスタイルマッピング、サポートされていない要素や潜在的な書式問題に関する有用な警告、Python ベースのアプリケーションとの容易な統合など、多くの機能があります。

Michael Williamson によって開発された Python-Mammoth は、DOCX ドキュメントから重要なコンテンツを抽出し、構造化された HTML に変換することに焦点を当てたオープンソース Python ライブラリです。その主な目的は、不要なインラインスタイルや乱雑なマークアップなしに、クリーンで意味的な HTML 出力を生成することです。他の多くの文書変換ツールとは異なり、ピクセル単位での完全な再現に焦点を当てるのではなく、見出し、段落、リストなどの文書の意味を保持するシンプルさと正確さを優先します。このライブラリは、Word テンプレートからクリーンで一貫した HTML レポートを生成することをサポートします。そのシンプルさ、クリーンな出力、拡張性に焦点を当てているため、文書変換ソリューションを求める開発者にとって優れた選択肢です。

Previous Next

Python-Mammoth のはじめ方

Python-Mammoth は PyPI にホストされているため、インストールは非常に簡単です。以下のコマンドで pip を使用してインストールできます。

pip コマンドで Python-Mammoth をインストール

 pip install mammoth 

Python を使用した Word DOCX から HTML への変換

オープンソースの Python-Mammoth ライブラリは、ソフトウェア開発者が Python アプリケーション内で Microsoft Word DOCX ファイルをロードし、HTML に変換することを容易にします。このライブラリの際立った機能の一つは、クリーンで意味的な HTML 出力を生成できることです。不要なインラインスタイルや独自タグを埋め込まず、最終的な HTML が軽量で CSS でのスタイリングが容易になるようにします。以下の例は、DOCX コンテンツが HTML に変換され、表示またはさらにスタイル設定できる様子を示しています。

Python API を使用して DOCX コンテンツを HTML に変換する方法は?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

カスタムスタイルマッピングのサポート

Python-Mammoth ライブラリは、ソフトウェア開発者がテキスト抽出プロセスを特定のニーズに合わせて微調整できるさまざまなカスタマイズオプションを提供します。開発者はカスタムスタイルマッピングを定義して、DOCX スタイルが特定の HTML 要素にどのように変換されるかを制御できます。これにより、文書コンテンツのレンダリングに柔軟性が高まります。以下は、DOCX の見出し1スタイルが Python アプリケーション内で HTML の h1 タグに明示的にマップされる例です。

DOCX の見出し1スタイルを Python アプリ内の HTML H1 タグにマッピングする方法は?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Python を使用して DOCX 画像を HTML に変換

オープンソースの Python-Mammoth ライブラリは、ソフトウェア開発者が Microsoft Word DOCX ファイルから画像を抽出し、生成された HTML に組み込むことを容易にします。デフォルトでは、画像参照は URL として含まれますが、開発者は画像の取り扱い方法をカスタマイズできます。以下の例は、DOCX ファイルからの画像が Python コマンドを使用して HTML 出力に保持される方法を示しています。

Python API を使用して DOCX ファイルから画像を HTML 出力に変換する方法は?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

レイアウト解析

オープンソースの Python-Mammoth ライブラリは、Word DOCX 文書のレイアウトを解析し、テーブル、画像、テキストブロックなどの要素を特定できます。この機能は、レイアウト情報の正確な抽出が必要なアプリケーションにとって重要です。

 日本