Biblioteca C# .NET para crear documentos de procesamiento de textos

La API C# .NET de código abierto permite a los desarrolladores de software cargar y convertir documentos de Microsoft Word, Google Docs y LibreOffice a HTML de forma gratuita.

¿Qué es Dotnet-Mammoth?

En el mundo moderno del intercambio de información, la capacidad de convertir documentos sin problemas de un formato a otro se ha vuelto primordial. Ya sea para archivar, compartir o incluso simplemente mantener la integridad de los datos, tener una herramienta de conversión de documentos confiable puede marcar la diferencia. Aquí es donde entra en juego la biblioteca Dotnet-Mammoth, que ofrece una solución potente y versátil para convertir documentos con facilidad. Al utilizar la biblioteca, los usuarios pueden convertir documentos históricos o registros importantes en archivos HTML accesibles y con capacidad de búsqueda.

La biblioteca Dotnet-Mammot es un contenedor .NET de la popular biblioteca JavaScript mammoth.js. Su objetivo principal es simplificar el proceso de conversión de documentos complejos, principalmente archivos DOCX y DOC, a HTML, permitiendo una transición fluida entre diferentes formatos. Esto puede resultar especialmente útil cuando se trata de documentos en aplicaciones donde HTML es el medio preferido, como aplicaciones web o sistemas de gestión de contenidos. Admite funciones como encabezados, listas, compatibilidad con mapas personalizables, formato de tabla, notas al pie y notas finales, imágenes, enlaces, saltos de línea, cuadros de texto, comentarios, negrita/cursiva/subrayado, tachado y muchas más.

La biblioteca Dotnet-Mammoth demuestra ser un activo valioso para los desarrolladores de software que requieren capacidades de conversión de documentos sólidas y precisas dentro de sus aplicaciones .NET. Importa y publica fácilmente documentos de Word en sitios web o blogs conservando su formato. Su compatibilidad con estilos complejos, facilidad de uso y capacidad de configuración lo distinguen como una opción ideal para manejar transformaciones de documentos. Al aprovechar el poder de la biblioteca, los desarrolladores pueden desbloquear un mundo de posibilidades para convertir sin problemas documentos complejos manteniendo su integridad visual y estructural.

Previous Next

Introducción a Dotnet-Mammoth

La forma recomendada de instalar Dotnet-Mammoth es mediante NuGet. Utilice el siguiente comando para una instalación sin problemas.

Instalar Dotnet-Mammoth desde NuGet

 Install-Package Mammoth
También puedes descargarlo directamente desde GitHub.

Conversión de documentos de Word a HTML mediante C#

La biblioteca Dotnet-Mammoth de código abierto ofrece a los desarrolladores de software la capacidad de cargar y convertir documentos DOCX de Microsoft Word en HTML limpio y preciso dentro de aplicaciones .NET. La biblioteca se destaca en el manejo de documentos de Microsoft Word (tanto en formato .docx como .doc), lo que la convierte en una opción ideal para aplicaciones que manejan una amplia gama de documentación. Cuenta con una precisión notable en la conversión de documentos. Traduce meticulosamente no sólo el contenido textual sino también varios elementos de estilo, como títulos, listas, tablas e incluso imágenes incrustadas. El siguiente ejemplo muestra con qué facilidad los desarrolladores de software pueden cargar y convertir documentos de Word a formato de archivo HTML utilizando comandos de C#.

¿Cómo convertir un documento de Word en un archivo HTML mediante la API de C#?

using DotnetMammoth;

class Program
{
    static void Main(string[] args)
    {
        var converter = new DocumentConverter();
        var result = converter.ConvertToHtml("path/to/document.docx");
        
        Console.WriteLine(result.Value);
    }
}

Extracción de texto y manejo de documentos complejos

La biblioteca Dotnet-Mammoth de código abierto proporciona soporte completo para manejar documentos complejos dentro de aplicaciones C#. Algunos documentos pueden ser increíblemente complejos, con formatos, tablas, imágenes y más complejos. La biblioteca aborda esta complejidad de forma eficaz, garantizando que incluso los documentos con diseños complejos se conviertan con precisión. También es muy fácil extraer el texto sin formato del documento utilizando ExtractRawText. El siguiente ejemplo muestra cómo los desarrolladores de software pueden extraer texto de un documento .docx de Word dentro de aplicaciones .NET.

¿Cómo extraer el texto sin formato de un documento de Word dentro de aplicaciones C#?

var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion

Precisión, conservación y estilo personalizado

Una de las principales preocupaciones al convertir documentos es mantener la fidelidad del contenido original. La biblioteca Dotnet-Mammoth sobresale en este aspecto, esforzándose por preservar el formato, los estilos y la estructura del documento fuente con la mayor precisión posible en el HTML resultante. La biblioteca ofrece la opción de aplicar estilos personalizados durante el proceso de conversión, asegurando que el HTML resultante se alinee con los estándares de diseño de su aplicación. Este nivel de personalización mejora la coherencia de su contenido en diferentes plataformas.

 Español