API Java gratuite pour extraire, analyser et traiter HTML

Bibliothèque Java Open Source pour charger, analyser, récupérer des URL, extraire et manipuler des données, en utilisant le meilleur des méthodes DOM HTML5 et des sélecteurs CSS.

Jsoup est une bibliothèque Java très puissante qui permet aux développeurs de logiciels de gérer des tâches liées à HTML dans leurs propres applications Java. En ce qui concerne le web scraping et l'analyse HTML en Java, Jsoup s'est imposé comme une bibliothèque populaire et puissante. Elle offre un moyen pratique et intuitif d'analyser et d'extraire des données à partir de documents HTML, de manipuler le DOM et de parcourir la structure HTML avec aisance. Jsoup est un projet open source distribué sous la licence MIT libérale. En tant que bibliothèque Java, Jsoup s'intègre parfaitement aux projets Java existants, ce qui en fait un choix idéal pour les développeurs Java.

Jsoup est une bibliothèque Java gratuite qui permet aux développeurs de logiciels d'extraire et de manipuler des données à partir de documents HTML et XML. Elle agit comme un pont pratique entre Java et le monde du web scraping, offrant un ensemble robuste de fonctionnalités pour récupérer, analyser, manipuler et parcourir le contenu HTML. Que vous ayez besoin d'extraire des données spécifiques d'une page web, de scraper plusieurs pages ou de modifier la structure des documents HTML, Jsoup fournit une API conviviale pour accomplir ces tâches.

Jsoup fournit une API propre et intuitive qui la rend conviviale pour les débutants et rapide à apprendre. Avec des méthodes simples pour analyser, manipuler et parcourir le HTML, les développeurs peuvent commencer à extraire des données web en un rien de temps. Son extensibilité permet aux développeurs de logiciels de créer des fonctionnalités personnalisées sur la bibliothèque. Elle prend en charge les attributs définis par l'utilisateur, les filtres personnalisés et les traversées personnalisées, permettant aux développeurs de logiciels d'adapter la bibliothèque à leurs besoins spécifiques. Son API intuitive, associée à une large gamme de fonctionnalités, en fait un choix populaire parmi les développeurs. Que vous ayez besoin d'extraire des données, de manipuler le DOM ou de gérer des scénarios HTML complexes, Jsoup simplifie le processus et fournit des solutions robustes.

En un coup d'œil

Un aperçu des fonctionnalités de Jsoup.

Aperçu des fonctionnalités

Extraction de données Web
Manipuler les fichiers HTML
Extraire des images de HTML
Ouvrir HTML
Lire HTML
Analyser HTML
Rendu HTML
Visualiseur HTML
HTML en PDF
Extraire la table des matières
Extraire du texte brut

Jsoup

Jsoup prend en charge le format de fichier HTML ainsi que les formats standard de l'industrie pour l'exportation.

Lecteur

HTML

Écrivain

TXT, HTML , PDF

Jsoup

Indépendance de la plateforme

Jsoup nécessite uniquement l'exécution de Java.

Java 8 et supérieur.

Jsoup

Dépendance Maven Jsoup

<dépendance>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  1.16.1
</dépendance>

Installer la bibliothèque Jsoup via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Vous pouvez également l'installer manuellement ; téléchargez les fichiers de la dernière version directement depuis le dépôt GitHub.

Analyse de fichier HTML en utilisant l'API Java

Une des fonctionnalités principales de la bibliothèque open source Jsoup est sa capacité à analyser des documents HTML dans des applications Java. La bibliothèque permet d'extraire des données à partir de documents HTML en utilisant une URL pointant vers une page web, des chaînes HTML brutes, ou directement en chargeant un fichier depuis le disque. Pour analyser un document HTML en utilisant Jsoup, les développeurs de logiciels peuvent utiliser la méthode Jsoup.parse(). Cette méthode accepte le contenu HTML sous forme de chaîne et renvoie un objet Document représentant le HTML analysé. À partir de là, les développeurs peuvent naviguer dans l'arbre DOM et extraire les éléments souhaités en utilisant des sélecteurs ou des méthodes de parcours. L'exemple suivant montre comment analyser une page web en un DOM et sélectionner les titres à partir de celle-ci en utilisant des commandes Java.

Comment analyser un fichier HTML et en extraire les titres via l'API Java ?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Extraire des données d'un fichier HTML en utilisant Java

La bibliothèque Jsoup a inclus des fonctions très utiles pour charger et extraire des données à partir de documents HTML dans des applications Java. La bibliothèque offre des méthodes intuitives pour extraire des données des éléments HTML. Elle prend en charge l'extraction de texte, la récupération d'attributs et la sérialisation HTML, fournissant aux développeurs les outils nécessaires pour extraire et manipuler les données selon les besoins. Cela facilite l'intégration des fonctionnalités de web scraping dans les applications Java. L'exemple suivant montre comment les programmeurs peuvent extraire des attributs, du texte et du HTML à partir d'éléments dans des applications Java.

Comment extraire des attributs, du texte et du HTML à partir d'éléments via l'API Java ?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Modifier et manipuler des fichiers HTML via l'API Java

La bibliothèque open source Jsoup permet aux développeurs de logiciels de charger et de modifier des documents HTML sans effort dans leurs propres applications Java. Que ce soit pour ajouter, supprimer ou modifier des éléments, Jsoup fournit une API pratique pour manipuler la structure HTML. Cette fonctionnalité s'avère inestimable lors de l'extraction de données et de leur sauvegarde dans un format souhaité ou lors de la création d'outils qui modifient le contenu HTML de manière programmatique.