Ingyenes Java API HTML kinyerésére, elemzésére és feldolgozására

Nyílt forráskódú Java könyvtár URL-ek betöltésére, elemzésére, lekérésére, adatok kinyerésére és manipulálására, a legjobb HTML5 DOM módszerek és CSS szelektorok felhasználásával.

A Jsoup egy nagyon erőteljes Java könyvtár, amely lehetővé teszi a szoftverfejlesztők számára, hogy HTML-hez kapcsolódó feladatokat végezzenek saját Java alkalmazásaikban. Amikor webes adatgyűjtésről és HTML elemzésről van szó Java-ban, a Jsoup népszerű és erőteljes könyvtárrá vált. Kényelmes és intuitív módot kínál HTML dokumentumokból való adatok kinyerésére, a DOM manipulálására és az HTML struktúrában való könnyed navigálásra. A Jsoup egy nyílt forráskódú projekt, amelyet a liberális MIT licenc alatt terjesztenek. Mint Java könyvtár, a Jsoup zökkenőmentesen integrálódik a meglévő Java projektekbe, így ideális választás a Java fejlesztők számára.

A Jsoup egy ingyenesen használható Java könyvtár, amely lehetővé teszi a szoftverfejlesztők számára, hogy adatokat nyerjenek ki és manipuláljanak HTML és XML dokumentumokból. Kényelmes hidat képez a Java és a webes adatgyűjtés világa között, robusztus funkciók széles választékát kínálva HTML tartalom lekérésére, elemzésére, manipulálására és bejárására. Akár konkrét adatokat szeretne kinyerni egy weboldalról, akár több oldalt szeretne adatgyűjteni, vagy módosítani szeretné a HTML dokumentumok szerkezetét, a Jsoup felhasználóbarát API-t biztosít ezen feladatok elvégzésére.

A Jsoup egy tiszta és intuitív API-t kínál, amely kezdők számára barátságos és gyorsan elsajátítható. Az HTML elemzésére, manipulálására és bejárására szolgáló egyszerű módszerekkel a fejlesztők pillanatok alatt elkezdhetik a webes adatok gyűjtését. Bővíthetősége lehetővé teszi a szoftverfejlesztők számára, hogy egyedi funkciókat építsenek a könyvtárra. Támogatja a felhasználó által definiált attribútumokat, egyedi szűrőket és egyedi bejárókat, lehetővé téve a szoftverfejlesztők számára, hogy a könyvtárat saját igényeikhez igazítsák. Intuitív API-ja, széleskörű funkcióival együtt népszerű választássá teszi a fejlesztők körében. Akár adatokat kell kinyerni, akár a DOM-ot manipulálni, akár összetett HTML forgatókönyveket kezelni, a Jsoup egyszerűsíti a folyamatot és robusztus megoldásokat kínál.

Gyors áttekintés

A Jsoup funkcióinak áttekintése.

Jellemzők áttekintése

Web Kinyerés
HTML fájlok manipulálása
Képek kinyerése HTML-ből
Nyisd meg a HTML-t
Olvassa el a HTML-t
HTML elemzése
HTML megjelenítés
HTML Megjelenítő
HTML a PDF-hez
Tartalomjegyzék kinyerése
Szöveg kinyerése

Jsoup

A Jsoup támogatja a HTML fájlformátumot, valamint az ipari szabványos formátumokat az exportáláshoz.

Olvasó

HTML

Író

TXT, HTML , PDF

Jsoup

Platformfüggetlenség

A Jsoup csak Java futtatókörnyezetet igényel.

Java 8 és újabb verziók.

Jsoup

Kezdés a Jsoup-pal

A Jsoup használatának ajánlott módja a szükséges Maven vagy Gradle konfiguráció beillesztése, vagy a JAR fájl manuális importálása a projektbe. Kérjük, adja hozzá a maven függőséget a zökkenőmentes működés érdekében.

Jsoup Maven Függőség

<dependency>
  
  org.jsoup
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Jsoup könyvtár telepítése Gradle segítségével

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Manuálisan is telepítheted; töltsd le a legfrissebb kiadási fájlokat közvetlenül a GitHub tárolóból.

HTML fájl elemzése Java API használatával

A nyílt forráskódú Jsoup könyvtár egyik alapvető funkciója, hogy képes HTML dokumentumokat elemezni Java alkalmazásokban. A könyvtár lehetővé teszi az adatok kinyerését HTML dokumentumokból egy weboldalra mutató URL, nyers HTML sztringek vagy közvetlenül egy fájl betöltésével a lemezről. HTML dokumentum elemzéséhez a Jsoup segítségével a szoftverfejlesztők a Jsoup.parse() metódust használhatják. Ez a metódus a HTML tartalmat sztringként fogadja el, és egy Document objektumot ad vissza, amely a feldolgozott HTML-t képviseli. Ebből a pontból a fejlesztők navigálhatnak a DOM fában, és kinyerhetik a kívánt elemeket szelektorok vagy bejárási módszerek segítségével. Az alábbi példa bemutatja, hogyan lehet egy weboldalt DOM-ra elemezni, és hogyan lehet kiválasztani a címsorokat java parancsok segítségével.

Hogyan elemezzük az HTML fájlt és vonjuk ki belőle a címsorokat Java API-n keresztül?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Adatok kinyerése HTML fájlból Java segítségével

A Jsoup könyvtár nagyon hasznos funkciókat tartalmaz HTML dokumentumok betöltésére és adatainak kinyerésére Java alkalmazásokban. A könyvtár intuitív módszereket kínál az adatok HTML elemekből való kinyerésére. Támogatja a szöveg kinyerését, az attribútumok lekérdezését és a HTML sorosítását, biztosítva a fejlesztők számára a szükséges eszközöket az adatok kinyeréséhez és manipulálásához. Ez megkönnyíti a webes adatgyűjtési funkciók integrálását Java alkalmazásokba. Az alábbi példa bemutatja, hogyan tudják a programozók kinyerni az attribútumokat, a szöveget és a HTML-t az elemekből Java alkalmazásokban.

Hogyan lehet attribútumokat, szöveget és HTML-t kinyerni elemekből Java API-n keresztül?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

HTML fájlok szerkesztése és manipulálása Java API-n keresztül

A nyílt forráskódú Jsoup könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy könnyedén betöltsenek és módosítsanak HTML dokumentumokat saját Java alkalmazásaikban. Legyen szó elemek hozzáadásáról, eltávolításáról vagy módosításáról, a Jsoup kényelmes API-t biztosít a HTML struktúra manipulálásához. Ez a funkció felbecsülhetetlen értékű, amikor adatokat gyűjtünk és a kívánt formátumban mentjük el, vagy amikor olyan eszközöket építünk, amelyek programozottan módosítják a HTML tartalmat.