1. Productos
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

API gratuita de C# .NET para analizar documentos HTML

Biblioteca de código abierto C# .NET que permite a los desarrolladores de software analizar documentos HTML, manipular elementos HTML y extraer datos relevantes

El análisis de HTML, la extracción de datos y el web scraping pueden ser tareas desafiantes y esenciales para los ingenieros de software y web. Sin embargo, los ingenieros web ahora pueden respirar aliviados gracias a la biblioteca Html Agility Pack (HAP). Html Agility Pack (HAP) es una biblioteca de código abierto muy poderosa que simplifica el proceso de análisis, manipulación y consulta de documentos HTML, convirtiéndola en un activo indispensable para los desarrolladores web y los entusiastas de los datos por igual.

El Html Agility Pack es una biblioteca de código abierto para .NET que permite a los desarrolladores analizar documentos HTML fácilmente. Proporciona un modelo de objeto conveniente y un conjunto robusto de API para navegar y manipular elementos HTML programáticamente. Ya sea que necesite extraer datos de sitios web, raspar información o realizar cualquier otra tarea relacionada con HTML, HAP viene al rescate con su interfaz intuitiva y funcionalidad extensa. La biblioteca HAP se puede integrar fácilmente en sus aplicaciones .NET utilizando NuGet. Simplemente instale el paquete y comience a utilizar sus características en su código.

Usando la biblioteca Html Agility Pack (HAP), los desarrolladores de software pueden interactuar con elementos HTML utilizando un modelo de objeto simple e intuitivo. Los elementos se pueden seleccionar, modificar y consultar fácilmente utilizando una sintaxis familiar, lo que facilita la navegación y manipulación de documentos HTML de manera programática. La biblioteca es un cambio de juego para los desarrolladores que trabajan con tareas de análisis y manipulación de HTML. Al simplificar las complejidades de trabajar con documentos HTML, HAP empodera a los desarrolladores de software para centrarse en extraer datos significativos y construir aplicaciones robustas.

Previous Next

Introducción a Html Agility Pack

La forma recomendada de instalar Html Agility Pack (HAP) es utilizando NuGet. Por favor, utiliza el siguiente comando para una instalación fluida.

Instalar Html Agility Pack a través de NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

También puedes instalarlo manualmente; descarga los archivos de la última versión directamente del repositorio de GitHub.

Análisis HTML Robusto a través de la API de C#

La biblioteca de código abierto Html Agility Pack (HAP) ha incluido características muy útiles para cargar y analizar HTML dentro de aplicaciones C#. La biblioteca HAP está diseñada para manejar HTML mal formado y puede analizar incluso los documentos HTML más complejos. Realiza un balanceo automático de etiquetas, admite etiquetas de cierre automático y se ajusta a situaciones de sopa de etiquetas. Hay varias formas de cargar y analizar HTML, como desde un archivo, una cadena, la web y desde el navegador. El siguiente código muestra varias formas de cargar y analizar archivos dentro de aplicaciones .NET.

¿Cómo cargar y analizar archivos dentro de aplicaciones .NET a través de la biblioteca C#?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipular documentos HTML a través de la API de C#

La biblioteca gratuita Html Agility Pack (HAP) ha incluido características muy poderosas para trabajar con documentos HTML y elementos dentro de aplicaciones C#. El HAP te permite modificar la estructura HTML añadiendo, modificando o eliminando elementos. Hay varias características importantes que forman parte de la biblioteca, como crear un duplicado del nodo, insertar el nodo especificado inmediatamente, eliminar todos los hijos, añadir el nodo especificado al final de la lista, crear un nodo HTML a partir de una cadena que representa HTML literal y muchas más. Puedes actualizar atributos, cambiar el contenido de texto o incluso clonar elementos según tus requisitos. El siguiente ejemplo muestra cómo manipular documentos HTML utilizando código C#.

Cargar y Manipular Documentos HTML a través de la API .NET

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Español