Бібліотека C# .NET для створення документів для обробки текстів

API C# .NET з відкритим кодом дозволяє розробникам програмного забезпечення безкоштовно завантажувати та перетворювати документи Microsoft Word, Google Docs і LibreOffice у HTML.

Що таке Dotnet-Mammoth?

У сучасному світі обміну інформацією можливість плавно конвертувати документи з одного формату в інший стала першорядною. Незалежно від того, чи то для архівування, спільного використання чи навіть для підтримки цілісності даних, наявність надійного інструменту перетворення документів може змінити все. Тут у гру вступає бібліотека Dotnet-Mammoth, яка пропонує потужне та універсальне рішення для легкого конвертування документів. Використовуючи бібліотеку, користувачі можуть перетворювати історичні документи або важливі записи в доступні та доступні для пошуку файли HTML.

Бібліотека Dotnet-Mammot — це оболонка .NET навколо популярної бібліотеки JavaScript mammoth.js. Його основна мета — спростити процес перетворення складних документів, насамперед файлів DOCX і DOC, у HTML, забезпечуючи плавний перехід між різними форматами. Це може бути особливо зручно під час роботи з документами в програмах, де HTML є кращим носієм, наприклад у веб-додатках або системах керування вмістом. Він підтримує такі функції, як заголовки, списки, підтримка настроюваного відображення, форматування таблиці, виноски та кінцеві виноски, зображення, посилання, розриви рядків, текстові поля, коментарі, жирний/курсив/підкреслення, закреслення та багато іншого.

Бібліотека Dotnet-Mammoth є цінним надбанням для розробників програмного забезпечення, яким потрібні надійні й точні можливості перетворення документів у програмах .NET. Він легко імпортує та публікує документи Word на веб-сайтах або в блогах, зберігаючи їх форматування. Його підтримка складного стилю, простота використання та можливість конфігурації виділяють його як найкращий вибір для роботи з перетвореннями документів. Використовуючи можливості бібліотеки, розробники можуть розблокувати цілий світ можливостей безперешкодного перетворення складних документів, зберігаючи їх візуальну та структурну цілісність.

Previous Next

Початок роботи з Dotnet-Mammoth

Рекомендований спосіб встановлення Dotnet-Mammoth — використання NuGet. Будь ласка, використовуйте наступну команду для плавного встановлення.

Установіть Dotnet-Mammoth із NuGet

 Install-Package Mammoth
Ви також можете завантажити його безпосередньо з GitHub.

Перетворення документів Word на HTML за допомогою C#

Бібліотека Dotnet-Mammoth з відкритим кодом дає розробникам програмного забезпечення можливість завантажувати та перетворювати документи Microsoft Word DOCX на чистий і точний HTML у програмах .NET. Бібліотека чудово працює з документами Microsoft Word (у форматах .docx і .doc), що робить її ідеальним вибором для додатків, які мають справу з різноманітною документацією. Він може похвалитися надзвичайною точністю конвертації документів. Він ретельно перекладає не лише текстовий вміст, але й різні елементи стилю, такі як заголовки, списки, таблиці та навіть вбудовані зображення. У наступному прикладі показано, як легко розробники програмного забезпечення можуть завантажувати та перетворювати документ Word у формат файлу HTML за допомогою команд C#.

Як конвертувати документ Word у файл HTML за допомогою C# API?

using DotnetMammoth;

class Program
{
    static void Main(string[] args)
    {
        var converter = new DocumentConverter();
        var result = converter.ConvertToHtml("path/to/document.docx");
        
        Console.WriteLine(result.Value);
    }
}

Вилучення тексту та обробка складних документів

Бібліотека Dotnet-Mammoth з відкритим кодом забезпечує повну підтримку обробки складних документів у програмах C#. Деякі документи можуть бути неймовірно складними, зі складним форматуванням, таблицями, зображеннями тощо. Бібліотека ефективно справляється з цією складністю, забезпечуючи точне перетворення навіть документів зі складним макетом. Також дуже легко витягнути необроблений текст документа за допомогою ExtractRawText. У наведеному нижче прикладі показано, як розробники програмного забезпечення можуть витягувати текст із документа Word .docx у програмах .NET.

Як видобути необроблений текст документа Word у програмах C#?

var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion

Точність, збереження та індивідуальний стиль

Однією з основних проблем під час конвертації документів є збереження вірності оригінального вмісту. Бібліотека Dotnet-Mammoth перевершує цей аспект, прагнучи якомога точніше зберегти форматування, стилі та структуру вихідного документа в кінцевому HTML. Бібліотека пропонує можливість застосувати власний стиль під час процесу перетворення, гарантуючи, що отриманий HTML відповідає стандартам дизайну вашої програми. Цей рівень налаштування покращує узгодженість вашого вмісту на різних платформах.

 Українська