1. Produkty
  2.   Przetwarzanie tekstu
  3.   .NET
  4.   Dotnet-Mammoth
 
  

Biblioteka C# .NET do tworzenia dokumentów edytora tekstu

Otwarty interfejs API C# .NET umożliwia programistom bezpłatne ładowanie i konwertowanie dokumentów Microsoft Word, Google Docs i LibreOffice do formatu HTML.

Co to jest Dotnet-Mammoth?

We współczesnym świecie wymiany informacji możliwość płynnej konwersji dokumentów z jednego formatu na inny stała się najważniejsza. Niezależnie od tego, czy chodzi o archiwizację, udostępnianie, czy nawet zachowanie integralności danych, posiadanie niezawodnego narzędzia do konwersji dokumentów może mieć ogromne znaczenie. W tym miejscu do gry wchodzi biblioteka Dotnet-Mammoth, oferująca wydajne i wszechstronne rozwiązanie do łatwej konwersji dokumentów. Korzystając z biblioteki, użytkownicy mogą konwertować dokumenty historyczne lub ważne zapisy na dostępne i przeszukiwalne pliki HTML.

Biblioteka Dotnet-Mammot to opakowanie .NET popularnej biblioteki JavaScript mammoth.js. Jego głównym celem jest uproszczenie procesu konwersji skomplikowanych dokumentów, przede wszystkim plików DOCX i DOC, do formatu HTML, umożliwiając płynne przejście pomiędzy różnymi formatami. Może to być szczególnie przydatne podczas pracy z dokumentami w aplikacjach, w których preferowanym medium jest HTML, takich jak aplikacje internetowe lub systemy zarządzania treścią. Obsługuje takie funkcje, jak nagłówki, listy, konfigurowalną obsługę mapowania, formatowanie tabeli, przypisy dolne i końcowe, obrazy, łącza, podziały wierszy, pola tekstowe, komentarze, pogrubienie/kursywa/podkreślenie, przekreślenie i wiele innych.

Biblioteka Dotnet-Mammoth okazuje się cennym nabytkiem dla twórców oprogramowania, którzy wymagają niezawodnych i dokładnych możliwości konwersji dokumentów w swoich aplikacjach .NET. Z łatwością importuje i publikuje dokumenty Worda na stronach internetowych lub blogach, zachowując ich formatowanie. Obsługa skomplikowanych stylów, łatwość użycia i konfigurowalność wyróżniają go jako doskonały wybór do obsługi transformacji dokumentów. Wykorzystując możliwości biblioteki, programiści mogą odblokować świat możliwości płynnej konwersji złożonych dokumentów przy jednoczesnym zachowaniu ich integralności wizualnej i strukturalnej.

Previous Next

Pierwsze kroki z Dotnet-Mammoth

Zalecany sposób instalacji Dotnet-Mammoth polega na użyciu narzędzia NuGet. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zainstaluj Dotnet-Mammoth z NuGet

 Install-Package Mammoth
Możesz go także pobrać bezpośrednio z GitHub.

Konwersja dokumentów Word do HTML za pomocą C#

Biblioteka Dotnet-Mammoth o otwartym kodzie źródłowym umożliwia twórcom oprogramowania ładowanie i konwertowanie dokumentów Microsoft Word DOCX w celu uzyskania czystego i dokładnego kodu HTML w aplikacjach .NET. Biblioteka doskonale obsługuje dokumenty Microsoft Word (zarówno w formacie .docx, jak i .doc), co czyni ją idealnym wyborem dla aplikacji zajmujących się szeroką gamą dokumentacji. Charakteryzuje się niezwykłą dokładnością w konwertowaniu dokumentów. Skrupulatnie tłumaczy nie tylko treść tekstową, ale także różne elementy stylistyczne, takie jak nagłówki, listy, tabele, a nawet osadzone obrazy. Poniższy przykład pokazuje, jak łatwo twórcy oprogramowania mogą ładować i konwertować dokument programu Word do formatu pliku HTML za pomocą poleceń C#.

Jak przekonwertować dokument Worda na plik HTML za pomocą interfejsu API C#?

using DotnetMammoth;

class Program
{
    static void Main(string[] args)
    {
        var converter = new DocumentConverter();
        var result = converter.ConvertToHtml("path/to/document.docx");
        
        Console.WriteLine(result.Value);
    }
}

Wyodrębniaj tekst i obsługuj złożone dokumenty

Biblioteka Dotnet-Mammoth o otwartym kodzie źródłowym zapewnia pełną obsługę obsługi złożonych dokumentów w aplikacjach C#. Niektóre dokumenty mogą być niezwykle skomplikowane, ze złożonym formatowaniem, tabelami, obrazami i nie tylko. Biblioteka skutecznie radzi sobie z tą złożonością, zapewniając precyzyjną konwersję nawet dokumentów o skomplikowanych układach. Bardzo łatwo jest również wyodrębnić surowy tekst dokumentu za pomocą ExtractRawText. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą wyodrębnić tekst z dokumentu Word .docx w aplikacjach .NET.

Jak wyodrębnić surowy tekst dokumentu Word w aplikacjach C#?

var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion

Dokładność, ochrona i niestandardowa stylizacja

Jedną z głównych kwestii związanych z konwersją dokumentów jest zachowanie wierności oryginalnej treści. Biblioteka Dotnet-Mammoth wyróżnia się pod tym względem, starając się jak najdokładniej zachować formatowanie, style i strukturę dokumentu źródłowego w wynikowym kodzie HTML. Biblioteka oferuje opcję zastosowania niestandardowej stylizacji podczas procesu konwersji, zapewniając zgodność powstałego kodu HTML ze standardami projektowymi aplikacji. Ten poziom dostosowania zwiększa spójność treści na różnych platformach.

 Polski