Ilmainen Java API HTML:n purkamiseen, jäsentämiseen ja käsittelyyn

Avoimen lähdekoodin Java-kirjasto URL-osoitteiden lataamiseen, jäsentämiseen, hakemiseen, tietojen erottamiseen ja käsittelyyn, käyttäen parhaita HTML5 DOM -menetelmiä ja CSS-valitsimia.

Jsoup on erittäin tehokas Java-kirjasto, joka mahdollistaa ohjelmistokehittäjien käsitellä HTML:ään liittyviä tehtäviä omissa Java-sovelluksissaan. Kun puhutaan verkkosivujen kaapimisesta ja HTML:n jäsentämisestä Javassa, Jsoup on noussut suosituksi ja tehokkaaksi kirjastoksi. Se tarjoaa kätevän ja intuitiivisen tavan jäsentää ja poimia tietoa HTML-dokumenteista, manipuloida DOM:ia ja navigoida HTML-rakenteessa vaivattomasti. Jsoup on avoimen lähdekoodin projekti, joka on jaettu liberaalin MIT-lisenssin alla. Java-kirjastona Jsoup integroituu saumattomasti olemassa oleviin Java-projekteihin, mikä tekee siitä ihanteellisen valinnan Java-kehittäjille.

Jsoup on ilmainen Java-kirjasto, joka mahdollistaa ohjelmistokehittäjien tietojen erottamisen ja käsittelyn HTML- ja XML-dokumenteista. Se toimii kätevänä silta Java:n ja verkkosivujen raapimisen maailman välillä, tarjoten vankan joukon ominaisuuksia HTML-sisällön hakemiseen, jäsentämiseen, käsittelyyn ja läpikäymiseen. Olitpa sitten tarvitsemasi tietojen erottamista verkkosivulta, useiden sivujen raapimista tai HTML-dokumenttien rakenteen muokkaamista, Jsoup tarjoaa käyttäjäystävällisen API:n näiden tehtävien suorittamiseen.

Jsoup tarjoaa puhtaan ja intuitiivisen API:n, joka tekee siitä aloittelijaystävällisen ja nopeasti opittavan. Suoraviivaisten menetelmien avulla HTML:n jäsentämiseen, muokkaamiseen ja läpikäymiseen kehittäjät voivat aloittaa verkkotietojen kaapimisen nopeasti. Sen laajennettavuus mahdollistaa ohjelmistokehittäjien rakentaa mukautettua toiminnallisuutta kirjaston päälle. Se tukee käyttäjän määrittelemiä attribuutteja, mukautettuja suodattimia ja mukautettuja läpikävijöitä, mikä mahdollistaa ohjelmistokehittäjien räätälöidä kirjastoa omiin tarpeisiinsa. Sen intuitiivinen API yhdessä laajan ominaisuusvalikoiman kanssa tekee siitä suositun valinnan kehittäjien keskuudessa. Olitpa sitten tarvitsemasi tietojen erottamista, DOM:in muokkaamista tai monimutkaisten HTML-skenaarioiden käsittelyä, Jsoup yksinkertaistaa prosessia ja tarjoaa vankkoja ratkaisuja.

Yhteenveto

Yleiskatsaus Jsoupin ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Verkkosivujen raaputus
Manipuloida HTML-tiedostoja
Poista kuvat HTML:stä
Avaa HTML
Lue HTML
Jäsentää HTML
HTML-renderointi
HTML-näkijä
HTML PDF:ksi
Poista sisällysluettelo
Poista pelkkä teksti

Jsoup

Jsoup tukee HTML-tiedostomuotoa sekä teollisuusstandardin mukaisia muotoja vientiin.

Lukija

HTML

Kirjoittaja

TXT, HTML , PDF

Jsoup

Alustariippumattomuus

Jsoup vaatii vain Java-aikaympäristön.

Java 8 ja uudemmat.

Jsoup

Aloittaminen Jsoupin kanssa

Suositeltu tapa käyttää Jsoupia on sisällyttää tarvittava Maven- tai Gradle-konfiguraatio tai tuoda JAR-tiedosto manuaalisesti projektiisi. Lisääthän Maven-riippuvuuden sujuvan toiminnan varmistamiseksi.

Jsoup Maven-riippuvuus

<dependency> org.jsoup <artifactId>Jsoup</artifactId> <version>1.16.1</version> </riippuvuus>

Asenna Jsoup-kirjasto Gradlen kautta

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Voit myös asentaa sen manuaalisesti; lataa uusimmat julkaisutiedostot suoraan GitHub -varastosta.

HTML-tiedoston jäsentäminen Java API:lla

Yksi avoimen lähdekoodin Jsoup-kirjaston keskeisistä toiminnoista on sen kyky jäsentää HTML-dokumentteja Java-sovelluksissa. Kirjasto mahdollistaa tietojen erottamisen HTML-dokumenteista käyttämällä URL-osoitetta, joka osoittaa verkkosivulle, raakaa HTML-merkkijonoa tai lataamalla tiedoston suoraan levylta. Jäsentääkseen HTML-dokumentin Jsoupin avulla ohjelmistokehittäjät voivat hyödyntää Jsoup.parse()-metodia. Tämä metodi hyväksyy HTML-sisällön merkkijonona ja palauttaa Document-objektin, joka edustaa jäsenneltyä HTML:ää. Siitä eteenpäin kehittäjät voivat navigoida DOM-puussa ja erottaa halutut elementit käyttäen valitsimia tai kulkemismenetelmiä. Seuraava esimerkki näyttää, kuinka verkkosivu jäsennetään DOM:ksi ja kuinka otsikot valitaan siitä Java-komentojen avulla.

Kuinka jäsentää HTML-tiedosto ja poimia otsikot siitä Java API:n avulla?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Poimi tietoja HTML-tiedostosta käyttäen Javaa

Jsoup-kirjasto on sisältänyt erittäin hyödyllisiä toimintoja HTML-dokumenttien lataamiseen ja tietojen erottamiseen Java-sovelluksissa. Kirjasto tarjoaa intuitiivisia menetelmiä tietojen erottamiseen HTML-elementeistä. Se tukee tekstin erottamista, attribuuttien hakemista ja HTML-sarjoittamista, tarjoten kehittäjille tarvittavat työkalut tietojen erottamiseen ja käsittelyyn tarpeen mukaan. Tämä helpottaa verkkosivujen kaavintatoimintojen integroimista Java-sovelluksiin. Seuraava esimerkki näyttää, kuinka ohjelmoijat voivat erottaa attribuutteja, tekstiä ja HTML:ää elementeistä Java-sovelluksissa.

Kuinka purkaa attribuutteja, tekstiä ja HTML:ää elementeistä Java API:n kautta?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Muokkaa ja käsittele HTML-tiedostoja Java API:n kautta

Avoimen lähdekoodin Jsoup-kirjasto mahdollistaa ohjelmistokehittäjille HTML-dokumenttien lataamisen ja muokkaamisen vaivattomasti omissa Java-sovelluksissaan. Olipa kyseessä elementtien lisääminen, poistaminen tai muokkaaminen, Jsoup tarjoaa kätevän API:n HTML-rakenteen käsittelyyn. Tämä ominaisuus on korvaamaton tietojen kaavinnassa ja niiden tallentamisessa haluttuun muotoon tai työkaluja rakennettaessa, jotka muokkaavat HTML-sisältöä ohjelmallisesti.