1. Produtos
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

API gratuita C# .NET para Análise de Documentos HTML

Biblioteca C# .NET de código aberto que permite aos desenvolvedores de software analisar documentos HTML, manipular elementos HTML e extrair dados relevantes

A análise de HTML, a extração de dados e o web scraping podem ser tarefas desafiadoras e essenciais para engenheiros de software e da web. No entanto, os engenheiros da web agora podem respirar aliviados graças à biblioteca Html Agility Pack (HAP). A Html Agility Pack (HAP) é uma biblioteca de código aberto muito poderosa que simplifica o processo de análise, manipulação e consulta de documentos HTML, tornando-se um ativo indispensável para desenvolvedores web e entusiastas de dados.

A Html Agility Pack é uma biblioteca de código aberto para .NET que permite aos desenvolvedores analisar documentos HTML com facilidade. Ela fornece um modelo de objeto conveniente e um conjunto robusto de APIs para navegar e manipular elementos HTML programaticamente. Se você precisa extrair dados de sites, raspar informações ou realizar qualquer outra tarefa relacionada a HTML, o HAP vem ao seu encontro com sua interface intuitiva e funcionalidade extensa. A biblioteca HAP pode ser facilmente integrada em suas aplicações .NET usando o NuGet. Basta instalar o pacote e começar a usar seus recursos em seu código.

Usando a biblioteca Html Agility Pack (HAP), os desenvolvedores de software podem interagir com elementos HTML usando um modelo de objeto simples e intuitivo. Os elementos podem ser facilmente selecionados, modificados e consultados usando uma sintaxe familiar, tornando a navegação e manipulação de documentos HTML programaticamente uma tarefa fácil. A biblioteca é um divisor de águas para desenvolvedores que trabalham com tarefas de análise e manipulação de HTML. Ao simplificar as complexidades de trabalhar com documentos HTML, o HAP capacita os desenvolvedores de software a se concentrarem na extração de dados significativos e na construção de aplicações robustas.

Previous Next

Introdução ao Html Agility Pack

A maneira recomendada de instalar o Html Agility Pack (HAP) é usando o NuGet. Por favor, use o seguinte comando para uma instalação suave.

Instalar Html Agility Pack via NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório GitHub.

Análise HTML Robusta via API C#

A biblioteca open source Html Agility Pack (HAP) incluiu recursos muito úteis para carregar e analisar HTML dentro de aplicações C#. A biblioteca HAP é projetada para lidar com HTML malformado e pode analisar até os documentos HTML mais complexos. Ela realiza o balanceamento automático de tags, suporta tags de fechamento automático e se ajusta a situações de sopa de tags. Existem várias maneiras de carregar e analisar HTML, como a partir de arquivos, strings, da web e do navegador. O código a seguir mostra várias maneiras de carregar e analisar arquivos dentro de aplicações .NET.

Como Carregar e Analisar arquivos dentro de aplicações .NET via Biblioteca C#?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipule Documentos HTML via API C#

A biblioteca gratuita Html Agility Pack (HAP) incluiu recursos muito poderosos para trabalhar com documentos HTML e elementos dentro de aplicações C#. O HAP permite que você modifique a estrutura HTML adicionando, modificando ou removendo elementos. Existem vários recursos importantes que fazem parte da biblioteca, como criar um duplicado do nó, inserir o nó especificado imediatamente, remover todos os filhos, adicionar o nó especificado ao final da lista, criar um nó HTML a partir de uma string que representa HTML literal e muitos mais. Você pode atualizar atributos, alterar o conteúdo de texto ou até mesmo clonar elementos conforme suas necessidades. O seguinte exemplo mostra como manipular documentos HTML usando código C#.

Carregar e Manipular Documentos HTML via API .NET

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Português