Gratis Java API om HTML te Extraheren, Parseren & Verwerken

Open Source Java-bibliotheek voor het laden, parseren, ophalen van URL's, extraheren en manipuleren van gegevens, met gebruik van de beste HTML5 DOM-methoden en CSS-selectors.

Jsoup is een zeer krachtige Java-bibliotheek die softwareontwikkelaars in staat stelt om HTML-gerelateerde taken binnen hun eigen Java-toepassingen uit te voeren. Als het gaat om webscraping en HTML-parsing in Java, is Jsoup uitgegroeid tot een populaire en krachtige bibliotheek. Het biedt een handige en intuïtieve manier om gegevens uit HTML-documenten te parseren en te extraheren, de DOM te manipuleren en de HTML-structuur met gemak te doorlopen. Jsoup is een open source-project dat wordt verspreid onder de liberale MIT-licentie. Als Java-bibliotheek integreert Jsoup naadloos met bestaande Java-projecten, waardoor het een ideale keuze is voor Java-ontwikkelaars.

Jsoup is een gratis te gebruiken Java-bibliotheek die softwareontwikkelaars in staat stelt om gegevens uit HTML- en XML-documenten te extraheren en te manipuleren. Het fungeert als een handige brug tussen Java en de wereld van webscraping, en biedt een robuuste set functies voor het ophalen, parseren, manipuleren en doorlopen van HTML-inhoud. Of je nu specifieke gegevens van een webpagina wilt extraheren, meerdere pagina's wilt scrapen of de structuur van HTML-documenten wilt wijzigen, Jsoup biedt een gebruiksvriendelijke API om deze taken uit te voeren.

Jsoup biedt een schone en intuïtieve API die het beginner-vriendelijk en snel te leren maakt. Met eenvoudige methoden voor het parseren, manipuleren en doorlopen van HTML, kunnen ontwikkelaars in een mum van tijd beginnen met het scrapen van webgegevens. De uitbreidbaarheid stelt softwareontwikkelaars in staat om aangepaste functionaliteit bovenop de bibliotheek te bouwen. Het ondersteunt door de gebruiker gedefinieerde attributen, aangepaste filters en aangepaste traversers, waardoor softwareontwikkelaars de bibliotheek kunnen afstemmen op hun specifieke behoeften. De intuïtieve API, in combinatie met een breed scala aan functies, maakt het een populaire keuze onder ontwikkelaars. Of je nu gegevens wilt extraheren, de DOM wilt manipuleren of complexe HTML-scenario's wilt afhandelen, Jsoup vereenvoudigt het proces en biedt robuuste oplossingen.

In één Oogopslag

Een overzicht van Jsoup-functies.

Overzicht van Kenmerken

Web Scraping
Manipuleer HTML-bestanden
Afbeeldingen uit HTML extraheren
Open HTML
Lees HTML
HTML parseren
HTML-weergave
HTML Viewer
HTML naar PDF
Extract TOC
Extracteer platte tekst

Jsoup

Jsoup ondersteunt het HTML-bestandsformaat evenals industriestandaardformaten voor export.

Lezer

HTML

Schrijver

TXT, HTML, PDF

Jsoup

Platformonafhankelijkheid

Jsoup vereist alleen Java-runtime.

Java 8 en hoger.

Jsoup

Aan de slag met Jsoup

De aanbevolen manier om Jsoup te gebruiken, is door de benodigde Maven- of Gradle-configuratie op te nemen of door het JAR-bestand handmatig in uw project te importeren. Voeg alstublieft de Maven-afhankelijkheid toe voor een soepele werking.

Jsoup Maven Afhankelijkheid

<afhankelijkheid>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Installeer Jsoup-bibliotheek via Gradle

// jsoup HTML-parserbibliotheek @ https://jsoup.org/
implementatie 'org.jsoup:jsoup:1.16.1'
Of Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn installeren

Je kunt het ook handmatig installeren; download de nieuwste releasebestanden rechtstreeks van de GitHub repository.

HTML-bestand parseren met Java API

Een van de kernfunctionaliteiten van de open source Jsoup-bibliotheek is de mogelijkheid om HTML-documenten te parseren binnen Java-toepassingen. De bibliotheek maakt het mogelijk om gegevens uit HTML-documenten te extraheren met behulp van een URL die naar een webpagina wijst, ruwe HTML-strings of rechtstreeks door een bestand van de schijf te laden. Om een HTML-document te parseren met Jsoup, kunnen softwareontwikkelaars de Jsoup.parse() methode gebruiken. Deze methode accepteert de HTML-inhoud als een string en retourneert een Document-object dat het geparseerde HTML vertegenwoordigt. Vanaf daar kunnen ontwikkelaars de DOM-boom navigeren en de gewenste elementen extraheren met behulp van selectors of traverseringsmethoden. Het volgende voorbeeld toont hoe je een webpagina naar een DOM kunt parseren en de koppen ervan kunt selecteren met behulp van Java-opdrachten.

Hoe een HTML-bestand te parseren en koppen eruit te extraheren via de Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Gegevens extraheren uit HTML-bestand met Java

De Jsoup-bibliotheek bevat zeer nuttige functies voor het laden en extraheren van gegevens uit HTML-documenten binnen Java-toepassingen. De bibliotheek biedt intuïtieve methoden om gegevens uit HTML-elementen te extraheren. Het ondersteunt tekstextractie, het ophalen van attributen en HTML-serialisatie, waardoor ontwikkelaars de nodige tools hebben om gegevens te extraheren en te manipuleren zoals vereist. Dit maakt het gemakkelijker om webscrapingfunctionaliteiten in Java-toepassingen te integreren. Het volgende voorbeeld toont hoe programmeurs attributen, tekst en HTML uit elementen binnen Java-toepassingen kunnen extraheren.

Hoe attributen, tekst en HTML uit elementen te extraheren via de Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Bewerk en Manipuleer HTML-bestanden via Java API

De open source Jsoup-bibliotheek stelt softwareontwikkelaars in staat om HTML-documenten moeiteloos te laden en te wijzigen binnen hun eigen Java-toepassingen. Of het nu gaat om het toevoegen, verwijderen of wijzigen van elementen, Jsoup biedt een handige API om de HTML-structuur te manipuleren. Deze functie is van onschatbare waarde bij het scrapen van gegevens en het opslaan in een gewenst formaat of bij het bouwen van tools die HTML-inhoud programmatisch wijzigen.