Библиотека C# .NET для создания текстовых документов

C# .NET API с открытым исходным кодом позволяет разработчикам программного обеспечения бесплатно загружать и конвертировать документы Microsoft Word, Google Docs и LibreOffice в HTML.

Что такое Dotnet-Mammoth?

В современном мире обмена информацией возможность беспрепятственного преобразования документов из одного формата в другой приобрела первостепенное значение. Будь то архивирование, совместное использование или даже просто поддержание целостности данных, наличие надежного инструмента преобразования документов может иметь решающее значение. Именно здесь в игру вступает библиотека Dotnet-Mammoth, предлагающая мощное и универсальное решение для простого преобразования документов. Используя библиотеку, пользователи могут конвертировать исторические документы или важные записи в доступные для поиска HTML-файлы.

Библиотека Dotnet-Mammot — это .NET-оболочка популярной библиотеки JavaScript mammoth.js. Его основная цель — упростить процесс преобразования сложных документов, в первую очередь файлов DOCX и DOC, в HTML, обеспечивая плавный переход между различными форматами. Это может быть особенно удобно при работе с документами в приложениях, где HTML является предпочтительным носителем, таких как веб-приложения или системы управления контентом. Он поддерживает такие функции, как заголовки, списки, поддержку настраиваемых сопоставлений, форматирование таблицы, сноски и концевые сноски, изображения, ссылки, разрывы строк, текстовые поля, комментарии, жирный шрифт, курсив, подчеркивание, зачеркивание и многое другое.

Библиотека Dotnet-Mammoth оказывается ценным активом для разработчиков программного обеспечения, которым требуются надежные и точные возможности преобразования документов в своих .NET-приложениях. Он легко импортирует и публикует документы Word на веб-сайтах или в блогах, сохраняя их форматирование. Поддержка сложных стилей, простота использования и настраиваемость делают его идеальным выбором для обработки преобразований документов. Используя возможности библиотеки, разработчики могут открыть целый мир возможностей плавного преобразования сложных документов, сохраняя при этом их визуальную и структурную целостность.

Previous Next

Начало работы с Dotnet-Mammoth

Рекомендуемый способ установки Dotnet-Mammoth — использование NuGet. Пожалуйста, используйте следующую команду для беспрепятственной установки.

Установить Dotnet-Mammoth из NuGet

 Install-Package Mammoth
Вы также можете загрузить его непосредственно с GitHub.

Преобразование документов Word в HTML с помощью C#

Библиотека Dotnet-Mammoth с открытым исходным кодом дает разработчикам программного обеспечения возможность загружать и преобразовывать документы Microsoft Word DOCX в чистый и точный HTML внутри приложений .NET. Библиотека превосходно справляется с документами Microsoft Word (как форматами .docx, так и .doc), что делает ее идеальным выбором для приложений, работающих с широким спектром документации. Он может похвастаться замечательной точностью преобразования документов. Он тщательно переводит не только текстовый контент, но и различные элементы оформления, такие как заголовки, списки, таблицы и даже встроенные изображения. В следующем примере показано, насколько легко разработчики программного обеспечения могут загружать и преобразовывать документ Word в формат файла HTML с помощью команд C#.

Как преобразовать документ Word в файл HTML с помощью C# API?

using DotnetMammoth;

class Program
{
    static void Main(string[] args)
    {
        var converter = new DocumentConverter();
        var result = converter.ConvertToHtml("path/to/document.docx");
        
        Console.WriteLine(result.Value);
    }
}

Извлечение текста и обработка сложных документов

Библиотека Dotnet-Mammoth с открытым исходным кодом обеспечивает полную поддержку обработки сложных документов внутри приложений C#. Некоторые документы могут быть невероятно сложными, со сложным форматированием, таблицами, изображениями и т. д. Библиотека эффективно справляется с этой сложностью, гарантируя точное преобразование даже документов со сложной компоновкой. Также очень легко извлечь необработанный текст документа с помощью ExtractRawText. В следующем примере показано, как разработчики программного обеспечения могут извлекать текст из документа Word .docx внутри приложений .NET.

Как извлечь необработанный текст документа Word из приложений C#?

var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion

Точность, сохранение и индивидуальный стиль

Одной из основных задач при преобразовании документов является сохранение точности исходного содержимого. Библиотека Dotnet-Mammoth выделяется в этом аспекте, стремясь максимально точно сохранить форматирование, стили и структуру исходного документа в конечном HTML. Библиотека предлагает возможность применять собственные стили в процессе преобразования, гарантируя, что полученный HTML-код будет соответствовать стандартам дизайна вашего приложения. Такой уровень настройки повышает единообразие вашего контента на разных платформах.

 Русский