1. produkty
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

Bezplatné C# .NET API pro analýzu HTML dokumentů

Open Source C# .NET knihovna, která umožňuje vývojářům software analyzovat HTML dokumenty, manipulovat s HTML prvky a extrahovat relevantní data

Analýza HTML, web scraping a extrakce dat mohou být náročné a zásadní úkoly pro webové a softwarové inženýry. Nicméně, weboví inženýři nyní mohou vydechnout s úlevou díky knihovně Html Agility Pack (HAP). Html Agility Pack (HAP) je velmi výkonná open-source knihovna, která zjednodušuje proces analýzy, manipulace a dotazování HTML dokumentů, což z ní činí nepostradatelný nástroj pro webové vývojáře a nadšence do dat.

Knihovna Html Agility Pack je open-source knihovna pro .NET, která umožňuje vývojářům snadno analyzovat HTML dokumenty. Poskytuje pohodlný objektový model a robustní sadu API pro programové procházení a manipulaci s HTML prvky. Ať už potřebujete extrahovat data z webových stránek, získávat informace nebo provádět jakýkoli jiný úkol související s HTML, HAP přichází na pomoc se svým intuitivním rozhraním a rozsáhlou funkcionalitou. Knihovna HAP může být snadno integrována do vašich .NET aplikací pomocí NuGet. Jednoduše nainstalujte balíček a začněte používat jeho funkce ve svém kódu.

Pomocí knihovny Html Agility Pack (HAP) mohou softwaroví vývojáři interagovat s HTML prvky pomocí jednoduchého a intuitivního objektového modelu. Prvky lze snadno vybírat, upravovat a dotazovat se na ně pomocí známé syntaxe, což usnadňuje navigaci a manipulaci s HTML dokumenty programově. Knihovna je revoluční pro vývojáře, kteří pracují s úkoly analýzy a manipulace HTML. Zjednodušením složitostí práce s HTML dokumenty HAP umožňuje softwarovým vývojářům soustředit se na extrakci smysluplných dat a vytváření robustních aplikací.

Previous Next

Začínáme s Html Agility Pack

Doporučený způsob instalace Html Agility Pack (HAP) je pomocí NuGet. Prosím, použijte následující příkaz pro hladkou instalaci.

Instalace Html Agility Pack přes NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

Můžete si to také nainstalovat ručně; stáhněte si nejnovější verzi souborů přímo z GitHub repozitáře.

Robustní analýza HTML pomocí C# API

Knihovna Html Agility Pack (HAP) s otevřeným zdrojovým kódem zahrnuje velmi užitečné funkce pro načítání a analýzu HTML v aplikacích C#. Knihovna HAP je navržena tak, aby zvládala neplatné HTML a dokáže analyzovat i ty nejkomplexnější HTML dokumenty. Provádí automatické vyvážení tagů, podporuje samouzavírací tagy a přizpůsobuje se situacím s tag soup. Existuje několik způsobů, jak načítat a analyzovat HTML, například z souboru, řetězce, webu a z prohlížeče. Následující kód ukazuje různé způsoby načítání a analýzy souborů v aplikacích .NET.

Jak načíst a analyzovat soubory uvnitř aplikací .NET pomocí knihovny C#?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipulace s HTML dokumenty pomocí C# API

Bezplatná knihovna Html Agility Pack (HAP) obsahuje velmi silné funkce pro práci s HTML dokumenty a prvky uvnitř aplikací C#. HAP vám umožňuje upravovat strukturu HTML přidáváním, modifikováním nebo odstraňováním prvků. Knihovna obsahuje několik důležitých funkcí, jako je vytvoření duplikátu uzlu, okamžité vložení určeného uzlu, odstranění všech dětí, přidání určeného uzlu na konec seznamu, vytvoření HTML uzlu ze stringu představujícího doslovné HTML a mnoho dalších. Můžete aktualizovat atributy, měnit textový obsah nebo dokonce klonovat prvky podle svých požadavků. Následující příklad ukazuje, jak manipulovat s HTML dokumenty pomocí kódu C#.

Načítání a manipulace s HTML dokumenty pomocí .NET API

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Čeština