1. Продукти
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

Безплатен C# .NET API за парсинг на HTML документи

Парсинг на HTML, уеб скрейпинг и извличане на данни могат да бъдат предизвикателни и съществени задачи за уеб и софтуерни инженери. Въпреки това, уеб инженерите вече могат да си поемат дъх благодарение на библиотеката Html Agility Pack (HAP). Html Agility Pack (HAP) е много мощна библиотека с отворен код, която опростява процеса на парсинг, манипулиране и запитване на HTML документи, което я прави незаменим актив за уеб разработчици и любители на данни.

Html Agility Pack е библиотека с отворен код за .NET, която позволява на разработчиците лесно да парсват HTML документи. Тя предоставя удобен обектен модел и набор от надеждни API за навигация и манипулиране на HTML елементи програмно. Независимо дали трябва да извлечете данни от уебсайтове, да събирате информация или да извършвате друга задача, свързана с HTML, HAP идва на помощ с интуитивния си интерфейс и обширна функционалност. Библиотеката HAP може лесно да бъде интегрирана в вашите .NET приложения, използвайки NuGet. Просто инсталирайте пакета и започнете да използвате функциите му в кода си.

С помощта на библиотеката Html Agility Pack (HAP), софтуерните разработчици могат да взаимодействат с HTML елементи, използвайки прост и интуитивен обектен модел. Елементите могат лесно да се избират, модифицират и запитват, използвайки позната синтаксис, което прави навигирането и манипулирането на HTML документи програмно изключително лесно. Библиотеката е революционна за разработчиците, които работят с задачи по парсинг и манипулация на HTML. Чрез опростяване на сложностите при работа с HTML документи, HAP дава възможност на софтуерните разработчици да се съсредоточат върху извличането на значими данни и изграждането на надеждни приложения.

Previous Next

Започване с Html Agility Pack

Препоръчителният начин за инсталиране на Html Agility Pack (HAP) е чрез NuGet. Моля, използвайте следната команда за гладка инсталация.

Инсталирайте Html Agility Pack чрез NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

Можете също да го инсталирате ръчно; изтеглете последните файлове за версия директно от GitHub хранилище.

Надеждно HTML парсване чрез C# API

Библиотеката с отворен код Html Agility Pack (HAP) включва много полезни функции за зареждане и парсинг на HTML в C# приложения. Библиотеката HAP е проектирана да се справя с неправилно форматиран HTML и може да парсва дори най-сложните HTML документи. Тя извършва автоматично балансиране на таговете, поддържа самозатварящи се тагове и се адаптира към ситуации с таг супа. Има различни начини за зареждане и парсинг на HTML, като например от файл, низ, уеб и от браузър. Следният код показва различни начини за зареждане и парсинг на файлове в .NET приложения.

Как да заредим и анализираме файлове в .NET приложения чрез C# библиотека?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Манипулиране на HTML документи чрез C# API

Безплатната библиотека Html Agility Pack (HAP) включва много мощни функции за работа с HTML документи и елементи в C# приложения. HAP ви позволява да модифицирате HTML структурата, като добавяте, променяте или премахвате елементи. Има няколко важни функции, които са част от библиотеката, като създаване на дубликат на възела, незабавно вмъкване на зададения възел, премахване на всички деца, добавяне на зададения възел в края на списъка, създаване на HTML възел от низ, представляващ литерално HTML и много други. Можете да актуализирате атрибути, да променяте текстовото съдържание или дори да клонирате елементи според вашите изисквания. Следващият пример показва как да манипулирате HTML документи, използвайки C# код.

Зареждане и манипулиране на HTML документи чрез .NET API

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Български