1. Des produits
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

API gratuite C# .NET pour l'analyse de documents HTML

Bibliothèque open source C# .NET qui permet aux développeurs de logiciels d'analyser des documents HTML, de manipuler des éléments HTML et d'extraire des données pertinentes

Le parsing HTML, le web scraping et l'extraction de données peuvent être des tâches difficiles et essentielles pour les ingénieurs web et logiciels. Cependant, les ingénieurs web peuvent maintenant pousser un soupir de soulagement grâce à la bibliothèque Html Agility Pack (HAP). Html Agility Pack (HAP) est une bibliothèque open-source très puissante qui simplifie le processus de parsing, de manipulation et de requête des documents HTML, en faisant un atout indispensable pour les développeurs web et les passionnés de données.

Html Agility Pack est une bibliothèque open-source pour .NET qui permet aux développeurs de parser facilement des documents HTML. Elle fournit un modèle d'objet pratique et un ensemble robuste d'API pour naviguer et manipuler les éléments HTML de manière programmatique. Que vous ayez besoin d'extraire des données de sites web, de récupérer des informations ou d'effectuer toute autre tâche liée à HTML, HAP est là pour vous aider avec son interface intuitive et sa fonctionnalité étendue. La bibliothèque HAP peut être facilement intégrée dans vos applications .NET en utilisant NuGet. Il suffit d'installer le package et de commencer à utiliser ses fonctionnalités dans votre code.

En utilisant la bibliothèque Html Agility Pack (HAP), les développeurs de logiciels peuvent interagir avec les éléments HTML en utilisant un modèle d'objet simple et intuitif. Les éléments peuvent être facilement sélectionnés, modifiés et interrogés en utilisant une syntaxe familière, ce qui rend la navigation et la manipulation des documents HTML programmatiquement très simples. La bibliothèque est un véritable changement de jeu pour les développeurs qui travaillent sur des tâches d'analyse et de manipulation HTML. En simplifiant les complexités liées au travail avec des documents HTML, HAP permet aux développeurs de logiciels de se concentrer sur l'extraction de données significatives et la création d'applications robustes.

Previous Next

Commencer avec Html Agility Pack

La méthode recommandée pour installer Html Agility Pack (HAP) est d'utiliser NuGet. Veuillez utiliser la commande suivante pour une installation fluide.

Installer Html Agility Pack via NuGet

NuGet\Installer-Package HtmlAgilityPack -Version 1.11.46 

Vous pouvez également l'installer manuellement ; téléchargez les derniers fichiers de version directement depuis le dépôt GitHub.

Analyse HTML robuste via l'API C#

La bibliothèque open source Html Agility Pack (HAP) a inclus des fonctionnalités très utiles pour charger et analyser le HTML dans les applications C#. La bibliothèque HAP est conçue pour gérer le HTML malformé et peut analyser même les documents HTML les plus complexes. Elle effectue un équilibrage automatique des balises, prend en charge les balises auto-fermantes et s'adapte aux situations de tag soup. Il existe plusieurs façons de charger et d'analyser le HTML, comme à partir d'un fichier, d'une chaîne, du web et depuis un navigateur. Le code suivant montre différentes manières de charger et d'analyser des fichiers dans des applications .NET.

Comment charger et analyser des fichiers dans des applications .NET via la bibliothèque C# ?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipuler des documents HTML via l'API C#

La bibliothèque Html Agility Pack (HAP) gratuite a inclus des fonctionnalités très puissantes pour travailler avec des documents HTML et des éléments dans des applications C#. Le HAP vous permet de modifier la structure HTML en ajoutant, modifiant ou supprimant des éléments. Il existe plusieurs fonctionnalités importantes faisant partie de la bibliothèque, telles que créer un duplicata du nœud, insérer le nœud spécifié immédiatement, supprimer tous les enfants, ajouter le nœud spécifié à la fin de la liste, créer un nœud HTML à partir d'une chaîne représentant du HTML littéral et bien d'autres. Vous pouvez mettre à jour les attributs, changer le contenu textuel ou même cloner des éléments selon vos besoins. L'exemple suivant montre comment manipuler des documents HTML en utilisant du code C#.

Charger et manipuler des documents HTML via l'API .NET

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Français