1. Produkter
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

Gratis C# .NET API for Parsing HTML-dokumenter

Åpen kildekode C# .NET-bibliotek som gjør det mulig for programvareutviklere å analysere HTML-dokumenter, manipulere HTML-elementer og hente ut relevant data

HTML-parsing, web scraping og datautvinning kan være utfordrende og essensielle oppgaver for web- og programvareingeniører. Imidlertid kan webingeniører nå puste lettet ut takket være Html Agility Pack (HAP) biblioteket. Html Agility Pack (HAP) er et svært kraftig åpen kildekode-bibliotek som forenkler prosessen med å parse, manipulere og forespørre HTML-dokumenter, noe som gjør det til en uunnværlig ressurs for webutviklere og dataentusiaster.

Html Agility Pack er et åpen kildekode-bibliotek for .NET som lar utviklere enkelt analysere HTML-dokumenter. Det gir en praktisk objektmodell og et robust sett med API-er for å navigere og manipulere HTML-elementer programmatisk. Enten du trenger å hente data fra nettsteder, skrape informasjon eller utføre andre HTML-relaterte oppgaver, kommer HAP til unnsetning med sitt intuitive grensesnitt og omfattende funksjonalitet. HAP-biblioteket kan enkelt integreres i .NET-applikasjonene dine ved å bruke NuGet. Installer bare pakken og begynn å bruke funksjonene i koden din.

Ved å bruke Html Agility Pack (HAP) biblioteket kan programvareutviklere samhandle med HTML-elementer ved hjelp av en enkel og intuitiv objektmodell. Elementer kan enkelt velges, endres og forespørres ved hjelp av kjent syntaks, noe som gjør det enkelt å navigere og manipulere HTML-dokumenter programmatisk. Biblioteket er en game-changer for utviklere som jobber med HTML-parsing og manipulasjonsoppgaver. Ved å forenkle kompleksiteten ved å jobbe med HTML-dokumenter, gir HAP programvareutviklere muligheten til å fokusere på å hente ut meningsfull data og bygge robuste applikasjoner.

Previous Next

Kom i gang med Html Agility Pack

Den anbefalte måten å installere Html Agility Pack (HAP) på er ved å bruke NuGet. Vennligst bruk følgende kommando for en jevn installasjon.

Installer Html Agility Pack via NuGet

NuGet\Install-Package HtmlAgilityPack -Versjon 1.11.46 

Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub -lageret.

Robust HTML-parsing via C# API

Den åpne kildekoden Html Agility Pack (HAP) biblioteket har inkludert veldig nyttige funksjoner for å laste og analysere HTML-parsing inne i C#-applikasjoner. HAP-biblioteket er designet for å håndtere feilaktig HTML og kan analysere selv de mest komplekse HTML-dokumentene. Det utfører automatisk tagbalansering, støtter selv-lukkende tagger, og tilpasser seg tag-suppe-situasjoner. Det finnes ulike måter å laste og analysere HTML på, for eksempel fra fil, streng, nett, og fra nettleser. Følgende kode viser ulike måter å laste og analysere filer inne i .NET-applikasjoner.

Hvordan laste inn og analysere filer i .NET-applikasjoner via C#-bibliotek?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Manipulere HTML-dokumenter via C# API

Det gratis Html Agility Pack (HAP) biblioteket har inkludert svært kraftige funksjoner for å jobbe med HTML-dokumenter og elementer inne i C#-applikasjoner. HAP lar deg endre HTML-strukturen ved å legge til, endre eller fjerne elementer. Det er flere viktige funksjoner som er en del av biblioteket, for eksempel å lage en duplikat av noden, sette inn den spesifiserte noden umiddelbart, fjerne alle barna, legge til den spesifiserte noden på slutten av listen, lage en HTML-node fra en streng som representerer bokstavelig HTML og mye mer. Du kan oppdatere attributter, endre tekstinnhold eller til og med klone elementer etter behov. Det følgende eksemplet viser hvordan man manipulerer HTML-dokumenter ved hjelp av C#-kode.

Last opp og manipuler HTML-dokumenter via .NET API

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Norsk