用于创建字处理文档的 C# .NET 库
开源 C# .NET API 使软件开发人员能够免费加载 Microsoft Word、Google Docs 和 LibreOffice 文档并将其转换为 HTML。
什么是 Dotnet-Mammoth?
在信息交换的现代世界中,将文档从一种格式无缝转换为另一种格式的能力变得至关重要。 无论是归档、共享,还是只是维护数据的完整性,拥有可靠的文档转换工具都可以发挥重要作用。 这就是 Dotnet-Mammoth 库发挥作用的地方,它为轻松转换文档提供了强大且多功能的解决方案。 通过使用该库,用户可以将历史文档或重要记录转换为可访问和可搜索的 HTML 文件。
Dotnet-Mammot 库是流行的 mammoth.js JavaScript 库的 .NET 包装器。 其主要目的是简化将复杂文档(主要是 DOCX 和 DOC 文件)转换为 HTML 的过程,从而实现不同格式之间的平滑过渡。 在处理以 HTML 为首选媒介的应用程序(例如 Web 应用程序或内容管理系统)中的文档时,这尤其方便。 它支持标题、列表、可自定义映射支持、表格格式、脚注和尾注、图像、链接、换行符、文本框、注释、粗体/斜体/下划线、删除线等功能。
事实证明,Dotnet-Mammoth 库对于在 .NET 应用程序中需要强大且准确的文档转换功能的软件开发人员来说是一项宝贵的资产。 它可以轻松地在网站或博客上导入和发布 Word 文档,同时保留其格式。 它对复杂样式的支持、易用性和可配置性使其成为处理文档转换的首选。 通过利用该库的强大功能,开发人员可以在无缝转换复杂文档的同时保持其视觉和结构完整性,从而开启无限可能。
Dotnet-Mammoth 入门
安装 Dotnet-Mammoth 的推荐方法是使用 NuGet。 为了顺利安装,请使用以下命令。
通过 C# 将 Word 文档转换为 HTML
开源 Dotnet-Mammoth 库使软件开发人员能够在 .NET 应用程序中加载 Microsoft Word DOCX 文档并将其转换为干净且准确的 HTML。 该库擅长处理 Microsoft Word 文档(.docx 和 .doc 格式),使其成为处理各种文档的应用程序的理想选择。 它在转换文档方面拥有极高的准确性。 它不仅精心翻译文本内容,还翻译各种样式元素,例如标题、列表、表格,甚至嵌入图像。 以下示例展示了软件开发人员如何轻松地使用 C# 命令加载 Word 文档并将其转换为 HTML 文件格式。
如何通过C# API将Word文档转换为HTML文件?
using DotnetMammoth;
class Program
{
static void Main(string[] args)
{
var converter = new DocumentConverter();
var result = converter.ConvertToHtml("path/to/document.docx");
Console.WriteLine(result.Value);
}
}
提取文本并处理复杂文档
开源 Dotnet-Mammoth 库为处理 C# 应用程序内的复杂文档提供了完整的支持。 有些文档可能非常复杂,具有复杂的格式、表格、图像等。 该库有效地解决了这种复杂性,确保即使是布局复杂的文档也能精确转换。 使用ExtractRawText 提取文档的原始文本也非常容易。 以下示例展示了软件开发人员如何从 .NET 应用程序内的 Word .docx 文档中提取文本。
如何在 C# 应用程序中提取 Word 文档的原始文本?
var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion
准确性、保留和自定义样式
转换文档时的主要问题之一是保持原始内容的保真度。 Dotnet-Mammoth 库在这方面表现出色,努力在生成的 HTML 中尽可能准确地保留源文档的格式、样式和结构。 该库提供了在转换过程中应用自定义样式的选项,确保生成的 HTML 符合应用程序的设计标准。 这种级别的自定义增强了不同平台上内容的一致性。