Darmowe API Java do ekstrakcji, analizy i przetwarzania HTML

Otwarty źródłowy Pibrary Java do ładowania, analizowania, pobierania adresów URL, ekstrakcji i manipulacji danymi, wykorzystujący najlepsze metody DOM HTML5 i selektory CSS.

Jsoup to bardzo potężna biblioteka Java, która umożliwia programistom obsługę zadań związanych z HTML w ich własnych aplikacjach Java. Jeśli chodzi o web scraping i analizę HTML w Javie, Jsoup stał się popularną i potężną biblioteką. Oferuje wygodny i intuicyjny sposób na analizowanie i wydobywanie danych z dokumentów HTML, manipulowanie DOM oraz łatwe poruszanie się po strukturze HTML. Jsoup jest projektem open source dystrybuowanym na mocy liberalnej licencji MIT. Jako biblioteka Java, Jsoup bezproblemowo integruje się z istniejącymi projektami Java, co czyni go idealnym wyborem dla programistów Java.

Jsoup to darmowa biblioteka Java, która umożliwia programistom wydobywanie i manipulowanie danymi z dokumentów HTML i XML. Działa jako wygodny most między Javą a światem web scrapingu, oferując solidny zestaw funkcji do pobierania, analizowania, manipulowania i przeszukiwania treści HTML. Niezależnie od tego, czy potrzebujesz wydobyć konkretne dane z strony internetowej, zeskrobać wiele stron, czy zmodyfikować strukturę dokumentów HTML, Jsoup zapewnia przyjazne dla użytkownika API do realizacji tych zadań.

Jsoup zapewnia czyste i intuicyjne API, które sprawia, że jest przyjazne dla początkujących i łatwe do nauki. Dzięki prostym metodom do parsowania, manipulowania i przeszukiwania HTML, programiści mogą szybko zacząć zbierać dane z sieci. Jego rozszerzalność pozwala programistom na budowanie niestandardowej funkcjonalności na bazie biblioteki. Obsługuje atrybuty zdefiniowane przez użytkownika, niestandardowe filtry i niestandardowe przeszukiwania, co umożliwia programistom dostosowanie biblioteki do ich specyficznych potrzeb. Jego intuicyjne API, w połączeniu z szeroką gamą funkcji, czyni go popularnym wyborem wśród programistów. Niezależnie od tego, czy potrzebujesz wydobyć dane, manipulować DOM, czy obsługiwać złożone scenariusze HTML, Jsoup upraszcza proces i zapewnia solidne rozwiązania.

Na pierwszy rzut oka

Przegląd funkcji Jsoup.

Przegląd funkcji

Web Scraping
Manipuluj plikami HTML
Wyodrębnij obrazy z HTML
Otwórz HTML
Przeczytaj HTML
Analizuj HTML
Renderowanie HTML
Podgląd HTML
HTML do PDF
Wyciągnij spis treści
Wyodrębnij czysty tekst

Jsoup

Jsoup obsługuje format plików HTML, a także standardowe formaty branżowe do eksportu.

Czytelnik

HTML

Pisarz

TXT, HTML, PDF

Jsoup

Niepodległość platformy

Jsoup wymaga tylko środowiska uruchomieniowego Java.

Java 8 i nowsze.
Java 8 and above.

Jsoup

Rozpoczęcie pracy z Jsoup

Zalecanym sposobem użycia Jsoup jest dodanie niezbędnej konfiguracji Maven lub Gradle lub ręczne zaimportowanie pliku JAR do swojego projektu. Proszę dodać zależność Maven dla płynnego działania.

Zależność Maven Jsoup

<dependency> <groupId>org.jsoup</groupId> <artifactId>Jsoup</artifactId> 1.16.1 </dependency>

Zainstaluj bibliotekę Jsoup za pomocą Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Możesz również zainstalować to ręcznie; pobierz najnowsze pliki wydania bezpośrednio z repozytorium GitHub.

Parsowanie pliku HTML za pomocą API Java

Jedną z podstawowych funkcji biblioteki open source Jsoup jest jej zdolność do analizowania dokumentów HTML w aplikacjach Java. Biblioteka umożliwia ekstrakcję danych z dokumentów HTML za pomocą adresu URL wskazującego na stronę internetową, surowych ciągów HTML lub bezpośrednio przez załadowanie pliku z dysku. Aby przeanalizować dokument HTML za pomocą Jsoup, programiści mogą wykorzystać metodę Jsoup.parse(). Metoda ta przyjmuje zawartość HTML jako ciąg i zwraca obiekt Document reprezentujący przeanalizowany HTML. Stamtąd programiści mogą nawigować po drzewie DOM i ekstraktować pożądane elementy za pomocą selektorów lub metod przeszukiwania. Poniższy przykład pokazuje, jak przeanalizować stronę internetową do DOM i wybrać nagłówki z niej za pomocą poleceń java.

Jak analizować plik HTML i wyodrębniać z niego nagłówki za pomocą Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Ekstrakcja danych z pliku HTML za pomocą Javy

Biblioteka Jsoup zawiera bardzo przydatne funkcje do ładowania i ekstrakcji danych z dokumentów HTML w aplikacjach Java. Biblioteka oferuje intuicyjne metody do ekstrakcji danych z elementów HTML. Obsługuje ekstrakcję tekstu, pobieranie atrybutów oraz serializację HTML, dostarczając programistom niezbędne narzędzia do ekstrakcji i manipulacji danymi według potrzeb. Ułatwia to integrację funkcji skrobania stron internetowych w aplikacjach Java. Poniższy przykład pokazuje, jak programiści mogą ekstraktować atrybuty, tekst i HTML z elementów w aplikacjach Java.

Jak wyodrębnić atrybuty, tekst i HTML z elementów za pomocą Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Edytuj i manipuluj plikami HTML za pomocą Java API

Biblioteka open source Jsoup pozwala programistom na ładowanie i modyfikowanie dokumentów HTML bez wysiłku w ramach własnych aplikacji Java. Niezależnie od tego, czy chodzi o dodawanie, usuwanie czy modyfikowanie elementów, Jsoup oferuje wygodne API do manipulacji strukturą HTML. Ta funkcja okazuje się nieoceniona podczas zbierania danych i zapisywania ich w pożądanym formacie lub podczas tworzenia narzędzi, które programowo modyfikują zawartość HTML.