Gratis Java API for å hente ut, analysere og behandle HTML

Åpen kildekode Java-bibliotek for lasting, parsing, henting av URL-er, ekstraksjon og manipulering av data, ved å bruke det beste av HTML5 DOM-metoder og CSS-selektorer.

Jsoup er et veldig kraftig Java-bibliotek som gjør det mulig for programvareutviklere å håndtere HTML-relaterte oppgaver i sine egne Java-applikasjoner. Når det kommer til web scraping og HTML-parsing i Java, har Jsoup blitt en populær og kraftig bibliotek. Det gir en praktisk og intuitiv måte å analysere og hente data fra HTML-dokumenter, manipulere DOM, og navigere i HTML-strukturen med letthet. Jsoup er et åpen kildekode-prosjekt distribuert under den liberale MIT-lisensen. Som et Java-bibliotek integreres Jsoup sømløst med eksisterende Java-prosjekter, noe som gjør det til et ideelt valg for Java-utviklere.

Jsoup er et gratis Java-bibliotek som gjør det mulig for programvareutviklere å hente ut og manipulere data fra HTML- og XML-dokumenter. Det fungerer som en praktisk bro mellom Java og verden av webskraping, og tilbyr et robust sett med funksjoner for å hente, analysere, manipulere og navigere i HTML-innhold. Enten du trenger å hente ut spesifikke data fra en nettside, skrape flere sider, eller endre strukturen på HTML-dokumenter, gir Jsoup et brukervennlig API for å utføre disse oppgavene.

Jsoup tilbyr et rent og intuitivt API som gjør det nybegynnervennlig og raskt å lære. Med enkle metoder for å analysere, manipulere og navigere i HTML, kan utviklere begynne å skrape nettdata på kort tid. Dets utvidbarhet gjør det mulig for programvareutviklere å bygge tilpasset funksjonalitet på toppen av biblioteket. Det støtter brukerdefinerte attributter, tilpassede filtre og tilpassede traverser, noe som gjør det mulig for programvareutviklere å skreddersy biblioteket til sine spesifikke behov. Dets intuitive API, sammen med et bredt spekter av funksjoner, gjør det til et populært valg blant utviklere. Enten du trenger å hente data, manipulere DOM, eller håndtere komplekse HTML-scenarier, forenkler Jsoup prosessen og gir robuste løsninger.

Oversikt

En oversikt over Jsoup-funksjoner.

Funksjoner Oversikt

Web Skraping
Manipulere HTML-filer
Ekstraher bilder fra HTML
Åpne HTML
Les HTML
Analyser HTML
HTML-rendering
HTML-visning
HTML til PDF
Ekstraher TOC
Ekstraher ren tekst

Jsoup

Jsoup støtter HTML-filformat samt bransjestandardformater for eksport.

Leser

HTML

Forfatter

TXT, HTML , PDF

Jsoup

Plattformuavhengighet

Jsoup krever bare Java-runtime.

Java 8 og høyere.

Jsoup

Kom i gang med Jsoup

Anbefalt måte å bruke Jsoup på er ved å inkludere den nødvendige Maven- eller Gradle-konfigurasjonen, eller ved å manuelt importere JAR-filen inn i prosjektet ditt. Vennligst legg til Maven-avhengigheten for jevn drift.

Jsoup Maven-avhengighet

<avhengighet>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</avhengighet>

Installer Jsoup-biblioteket via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

Parsing HTML-fil ved hjelp av Java API

En av de grunnleggende funksjonene i det åpne kildekodebiblioteket Jsoup er dets evne til å analysere HTML-dokumenter inne i Java-applikasjoner. Biblioteket gjør det mulig å hente data fra HTML-dokumenter ved å bruke en URL som peker til en nettside, rå HTML-strenger, eller direkte ved å laste inn en fil fra disken. For å analysere et HTML-dokument ved hjelp av Jsoup, kan programvareutviklere bruke metoden Jsoup.parse(). Denne metoden tar HTML-innholdet som en streng og returnerer et Document-objekt som representerer den analyserte HTML-en. Derfra kan utviklere navigere i DOM-treet og hente ut de ønskede elementene ved hjelp av selektorer eller traverseringsmetoder. Det følgende eksemplet viser hvordan man analyserer en nettside til et DOM, og velger overskriftene fra den ved hjelp av Java-kommandoer.

Hvordan analysere HTML-fil og hente overskrifter fra den via Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Ekstraher data fra HTML-fil ved hjelp av Java

Jsoup-biblioteket har inkludert svært nyttige funksjoner for å laste inn og hente data fra HTML-dokumenter inne i Java-applikasjoner. Biblioteket tilbyr intuitive metoder for å hente data fra HTML-elementer. Det støtter tekstutvinning, henting av attributter og HTML-serialisering, og gir utviklere de nødvendige verktøyene for å hente og manipulere data etter behov. Dette gjør det enklere å integrere webskraping-funksjonaliteter i Java-applikasjoner. Det følgende eksemplet viser hvordan programmerere kan hente attributter, tekst og HTML fra elementer inne i Java-applikasjoner.

Hvordan hente ut attributter, tekst og HTML fra elementer via Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Rediger og manipuler HTML-filer via Java API

Det åpne kildekodebiblioteket Jsoup lar programvareutviklere laste inn og endre HTML-dokumenter uten problemer i sine egne Java-applikasjoner. Enten det er å legge til, fjerne eller endre elementer, gir Jsoup et praktisk API for å manipulere HTML-strukturen. Denne funksjonen viser seg å være uvurderlig når man henter data og lagrer det i et ønsket format, eller når man bygger verktøy som programmatisk endrer HTML-innhold.