Kostenlose Java-API zum Extrahieren, Parsen und Verarbeiten von HTML

Open Source Java Pibrary zum Laden, Parsen, Abrufen von URLs, Extrahieren und Manipulieren von Daten, unter Verwendung der besten HTML5 DOM-Methoden und CSS-Selektoren.

Jsoup ist eine sehr leistungsstarke Java-Bibliothek, die es Softwareentwicklern ermöglicht, HTML-bezogene Aufgaben in ihren eigenen Java-Anwendungen zu bearbeiten. Wenn es um Web-Scraping und HTML-Parsing in Java geht, hat sich Jsoup als beliebte und leistungsstarke Bibliothek etabliert. Es bietet eine bequeme und intuitive Möglichkeit, Daten aus HTML-Dokumenten zu parsen und zu extrahieren, das DOM zu manipulieren und die HTML-Struktur mühelos zu durchlaufen. Jsoup ist ein Open-Source-Projekt, das unter der liberalen MIT-Lizenz vertrieben wird. Als Java-Bibliothek integriert sich Jsoup nahtlos in bestehende Java-Projekte und ist somit eine ideale Wahl für Java-Entwickler.

Jsoup ist eine kostenlose Java-Bibliothek, die es Softwareentwicklern ermöglicht, Daten aus HTML- und XML-Dokumenten zu extrahieren und zu manipulieren. Sie fungiert als praktische Brücke zwischen Java und der Welt des Web-Scrapings und bietet eine robuste Reihe von Funktionen zum Abrufen, Parsen, Manipulieren und Durchlaufen von HTML-Inhalten. Egal, ob Sie spezifische Daten von einer Webseite extrahieren, mehrere Seiten scrapen oder die Struktur von HTML-Dokumenten ändern müssen, Jsoup bietet eine benutzerfreundliche API, um diese Aufgaben zu erledigen.

Jsoup bietet eine saubere und intuitive API, die es anfängerfreundlich und schnell erlernbar macht. Mit einfachen Methoden zum Parsen, Manipulieren und Durchlaufen von HTML können Entwickler in kürzester Zeit mit dem Scraping von Webdaten beginnen. Seine Erweiterbarkeit ermöglicht es Softwareentwicklern, benutzerdefinierte Funktionen auf der Bibliothek aufzubauen. Es unterstützt benutzerdefinierte Attribute, benutzerdefinierte Filter und benutzerdefinierte Traversierer, die es Softwareentwicklern ermöglichen, die Bibliothek an ihre spezifischen Bedürfnisse anzupassen. Seine intuitive API, kombiniert mit einer breiten Palette von Funktionen, macht es zu einer beliebten Wahl unter Entwicklern. Egal, ob Sie Daten extrahieren, das DOM manipulieren oder komplexe HTML-Szenarien behandeln müssen, Jsoup vereinfacht den Prozess und bietet robuste Lösungen.

Auf einen Blick

Eine Übersicht über die Funktionen von Jsoup.

Übersicht der Funktionen

Web Scraping
HTML-Dateien manipulieren
Bilder aus HTML extrahieren
HTML öffnen
HTML lesen
HTML parsen
HTML-Darstellung
HTML-Viewer
HTML zu PDF
Inhaltsverzeichnis extrahieren
Extrahiere reinen Text

Jsoup

Jsoup unterstützt das HTML-Dateiformat sowie branchenübliche Formate für den Export.

Leser

HTML

Schreiber

TXT, HTML , PDF

Jsoup

Plattformunabhängigkeit

Jsoup benötigt nur die Java-Laufzeitumgebung.

Java 8 und höher.

Jsoup

Einstieg in Jsoup

Die empfohlene Methode zur Verwendung von Jsoup besteht darin, die erforderliche Maven- oder Gradle-Konfiguration einzufügen oder die JAR-Datei manuell in Ihr Projekt zu importieren. Bitte fügen Sie die Maven-Abhängigkeit für ein reibungsloses Arbeiten hinzu.

Jsoup Maven-Abhängigkeit

<Abhängigkeit>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</Abhängigkeit>

Jsoup-Bibliothek über Gradle installieren

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Sie können es auch manuell installieren; laden Sie die neuesten Release-Dateien direkt aus dem GitHub Repository herunter.

HTML-Datei mit der Java-API parsen

Eine der Kernfunktionen der Open-Source-Bibliothek Jsoup ist ihre Fähigkeit, HTML-Dokumente innerhalb von Java-Anwendungen zu parsen. Die Bibliothek ermöglicht es, Daten aus HTML-Dokumenten mithilfe einer URL, die auf eine Webseite verweist, rohen HTML-Strings oder direkt durch das Laden einer Datei von der Festplatte zu extrahieren. Um ein HTML-Dokument mit Jsoup zu parsen, können Softwareentwickler die Methode Jsoup.parse() verwenden. Diese Methode akzeptiert den HTML-Inhalt als String und gibt ein Document-Objekt zurück, das das geparste HTML darstellt. Von dort aus können Entwickler den DOM-Baum navigieren und die gewünschten Elemente mithilfe von Selektoren oder Traversierungsmethoden extrahieren. Das folgende Beispiel zeigt, wie man eine Webseite in ein DOM parst und die Überschriften mithilfe von Java-Befehlen auswählt.

Wie man eine HTML-Datei analysiert und Überschriften über die Java-API extrahiert?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Daten aus einer HTML-Datei mit Java extrahieren

Die Jsoup-Bibliothek enthält sehr nützliche Funktionen zum Laden und Extrahieren von Daten aus HTML-Dokumenten innerhalb von Java-Anwendungen. Die Bibliothek bietet intuitive Methoden zum Extrahieren von Daten aus HTML-Elementen. Sie unterstützt die Textextraktion, das Abrufen von Attributen und die HTML-Serialisierung und stellt Entwicklern die notwendigen Werkzeuge zur Verfügung, um Daten nach Bedarf zu extrahieren und zu manipulieren. Dies erleichtert die Integration von Web-Scraping-Funktionalitäten in Java-Anwendungen. Das folgende Beispiel zeigt, wie Programmierer Attribute, Text und HTML aus Elementen innerhalb von Java-Anwendungen extrahieren können.

Wie man Attribute, Text und HTML aus Elementen über die Java-API extrahiert?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

HTML-Dateien über die Java-API bearbeiten und manipulieren

Die Open-Source-Bibliothek Jsoup ermöglicht es Softwareentwicklern, HTML-Dokumente mühelos in ihren eigenen Java-Anwendungen zu laden und zu modifizieren. Ob es darum geht, Elemente hinzuzufügen, zu entfernen oder zu ändern, Jsoup bietet eine praktische API zur Manipulation der HTML-Struktur. Diese Funktion erweist sich als äußerst wertvoll, wenn Daten extrahiert und in einem gewünschten Format gespeichert werden oder wenn Werkzeuge entwickelt werden, die HTML-Inhalte programmgesteuert ändern.