1. Produkter
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

Gratis C# .NET API til at analysere HTML-dokumenter

Open Source C# .NET-bibliotek, der gør det muligt for softwareudviklere at analysere HTML-dokumenter, manipulere HTML-elementer og udtrække relevante data

HTML-parsing, web scraping og dataudtræk kan være udfordrende og essentielle opgaver for web- og softwareingeniører. Men webingeniører kan nu ånde lettet op takket være Html Agility Pack (HAP) biblioteket. Html Agility Pack (HAP) er et meget kraftfuldt open-source bibliotek, der forenkler processen med at parse, manipulere og forespørge HTML-dokumenter, hvilket gør det til en uundgåelig ressource for webudviklere og dataentusiaster.

Html Agility Pack er et open-source bibliotek til .NET, der gør det muligt for udviklere at parse HTML-dokumenter nemt. Det tilbyder en praktisk objektmodel og et robust sæt af API'er til at navigere og manipulere HTML-elementer programmatisk. Uanset om du har brug for at udtrække data fra hjemmesider, scrape information eller udføre enhver anden HTML-relateret opgave, kommer HAP til undsætning med sin intuitive grænseflade og omfattende funktionalitet. HAP-biblioteket kan nemt integreres i dine .NET-applikationer ved hjælp af NuGet. Installer blot pakken og begynd at bruge dens funktioner i din kode.

Ved at bruge Html Agility Pack (HAP) biblioteket kan softwareudviklere interagere med HTML-elementer ved hjælp af en simpel og intuitiv objektmodel. Elementer kan nemt vælges, modificeres og forespørges ved hjælp af velkendt syntaks, hvilket gør det let at navigere og manipulere HTML-dokumenter programmatisk. Biblioteket er en game-changer for udviklere, der arbejder med HTML-parsing og manipulationsopgaver. Ved at forenkle kompleksiteten ved at arbejde med HTML-dokumenter giver HAP softwareudviklere mulighed for at fokusere på at udtrække meningsfulde data og bygge robuste applikationer.

Previous Next

Kom godt i gang med Html Agility Pack

Den anbefalede måde at installere Html Agility Pack (HAP) på er ved at bruge NuGet. Brug venligst følgende kommando for en glat installation.

Installer Html Agility Pack via NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

Du kan også installere det manuelt; download de nyeste udgivelsesfiler direkte fra GitHub repository.

Robust HTML-parsing via C# API

Det open source Html Agility Pack (HAP) bibliotek har inkluderet meget nyttige funktioner til indlæsning og parsing af HTML i C# applikationer. HAP biblioteket er designet til at håndtere fejlbehæftet HTML og kan parse selv de mest komplekse HTML-dokumenter. Det udfører automatisk tagbalancering, understøtter selv-lukkende tags og tilpasser sig tag-suppe situationer. Der er forskellige måder at indlæse og parse HTML på, såsom fra fil, streng, web og fra browser. Følgende kode viser forskellige måder at indlæse og parse filer i .NET applikationer.

Hvordan man indlæser og parser filer i .NET-applikationer via C#-bibliotek?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipulere HTML-dokumenter via C# API

Det gratis Html Agility Pack (HAP) bibliotek har inkluderet meget kraftfulde funktioner til at arbejde med HTML-dokumenter og elementer i C# applikationer. HAP giver dig mulighed for at ændre HTML-strukturen ved at tilføje, ændre eller fjerne elementer. Der er flere vigtige funktioner, der er en del af biblioteket, såsom at oprette en duplikat af noden, indsætte den angivne node straks, fjerne alle børn, tilføje den angivne node til slutningen af listen, oprette en HTML-node fra en streng, der repræsenterer bogstavelig HTML, og mange flere. Du kan opdatere attributter, ændre tekstindhold eller endda klone elementer efter dine behov. Det følgende eksempel viser, hvordan man manipulerer HTML-dokumenter ved hjælp af C# kode.

Indlæs og manipulér HTML-dokumenter via .NET API

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Dansk