Bezmaksas Java API HTML izvilkšanai, parsēšanai un apstrādei

Atvērtā koda Java bibliotēka URL ielādei, parsēšanai, iegūšanai, datu izvilkšanai un manipulēšanai, izmantojot labākās HTML5 DOM metodes un CSS selektorus.

Jsoup ir ļoti jaudīga Java bibliotēka, kas ļauj programmatūras izstrādātājiem apstrādāt HTML saistītus uzdevumus savās Java lietotnēs. Runājot par tīmekļa skrāpēšanu un HTML parsēšanu Java, Jsoup ir kļuvis par populāru un jaudīgu bibliotēku. Tā nodrošina ērtu un intuitīvu veidu, kā parsēt un izvilkt datus no HTML dokumentiem, manipulēt ar DOM un viegli pārvietoties pa HTML struktūru. Jsoup ir atvērtā koda projekts, kas izplatīts saskaņā ar liberālo MIT licenci. Kā Java bibliotēka, Jsoup nevainojami integrējas esošajos Java projektos, padarot to par ideālu izvēli Java izstrādātājiem.

Jsoup ir bezmaksas Java bibliotēka, kas ļauj programmatūras izstrādātājiem iegūt un manipulēt datus no HTML un XML dokumentiem. Tā darbojas kā ērts tilts starp Java un tīmekļa skrāpēšanas pasauli, piedāvājot spēcīgu funkciju kopumu HTML satura iegūšanai, parsēšanai, manipulēšanai un pārlūkošanai. Neatkarīgi no tā, vai jums ir nepieciešams iegūt konkrētus datus no tīmekļa lapas, skrāpēt vairākas lapas vai mainīt HTML dokumentu struktūru, Jsoup nodrošina lietotājam draudzīgu API šo uzdevumu veikšanai.

Jsoup nodrošina tīru un intuitīvu API, kas padara to draudzīgu iesācējiem un ātri apgūstamu. Ar vienkāršām metodēm HTML parsēšanai, manipulēšanai un pārvietošanai, izstrādātāji var sākt iegūt tīmekļa datus īsā laikā. Tās paplašināmība ļauj programmatūras izstrādātājiem veidot pielāgotu funkcionalitāti uz bibliotēkas pamata. Tā atbalsta lietotāja definētās atribūtus, pielāgotus filtrus un pielāgotus pārvietotājus, ļaujot programmatūras izstrādātājiem pielāgot bibliotēku savām specifiskajām vajadzībām. Tās intuitīvais API, apvienojumā ar plašu funkciju klāstu, padara to par populāru izvēli starp izstrādātājiem. Neatkarīgi no tā, vai jums ir nepieciešams iegūt datus, manipulēt ar DOM vai risināt sarežģītas HTML situācijas, Jsoup vienkāršo procesu un nodrošina izturīgus risinājumus.

Ātri pārskats

Jsoup funkciju pārskats.

Funkciju pārskats

Web Scraping
Manipulēt HTML failus
Izvilkt attēlus no HTML
Atvērt HTML
Lasīt HTML
Analizēt HTML
HTML attēlošana
HTML skatītājs
HTML uz PDF
Izvilkt TOC
Izvilkt parasto tekstu

Jsoup

Jsoup atbalsta HTML failu formātu, kā arī nozares standarta formātus eksportam.

Lasītājs

HTML

Rakstnieks

TXT, HTML, PDF

Jsoup

Platformu neatkarība

Jsoup tikai prasa Java izpildlaiku.

Java 8 un augstāk.

Jsoup

Sākt darbu ar Jsoup

Ieteicamais veids, kā izmantot Jsoup, ir iekļaut nepieciešamo Maven vai Gradle konfigurāciju vai manuāli importēt JAR failu savā projektā. Lūdzu, pievienojiet maven atkarību, lai nodrošinātu vienmērīgu darbību.

Jsoup Maven atkarība

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Install Jsoup Library via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Jūs to varat arī instalēt manuāli; lejupielādējiet jaunākās izlaišanas failus tieši no GitHub krātuves.

HTML faila parsēšana, izmantojot Java API

Viens no atvērtā koda Jsoup bibliotēkas pamatfunkcionalitātēm ir tās spēja analizēt HTML dokumentus Java lietojumprogrammās. Bibliotēka ļauj izvilkt datus no HTML dokumentiem, izmantojot URL, kas norāda uz tīmekļa lapu, neapstrādātas HTML virknes vai tieši ielādējot failu no diska. Lai analizētu HTML dokumentu, izmantojot Jsoup, programmatūras izstrādātāji var izmantot metodi Jsoup.parse(). Šī metode pieņem HTML saturu kā virkni un atgriež Document objektu, kas attēlo analizēto HTML. No turienes izstrādātāji var pārvietoties DOM kokā un izvilkt vēlamās sastāvdaļas, izmantojot selektorus vai pārvietošanās metodes. Šis piemērs parāda, kā analizēt tīmekļa lapu uz DOM un izvēlēties virsrakstus no tās, izmantojot Java komandas.

Kā analizēt HTML failu un iegūt virsrakstus no tā, izmantojot Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Iegūt datus no HTML faila, izmantojot Java

Jsoup bibliotēka ir iekļāvusi ļoti noderīgas funkcijas datu ielādei un izvilkšanai no HTML dokumentiem Java lietojumprogrammās. Bibliotēka piedāvā intuitīvas metodes datu izvilkšanai no HTML elementiem. Tā atbalsta teksta izvilkšanu, atribūtu iegūšanu un HTML serializāciju, nodrošinot izstrādātājiem nepieciešamos rīkus datu izvilkšanai un manipulēšanai pēc vajadzības. Tas atvieglo tīmekļa skrāpēšanas funkcionalitātes integrēšanu Java lietojumprogrammās. Nākamais piemērs parāda, kā programmētāji var izvilkt atribūtus, tekstu un HTML no elementiem Java lietojumprogrammās.

Kā iegūt atribūtus, tekstu un HTML no elementiem, izmantojot Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Rediģēt un manipulēt HTML failus, izmantojot Java API

Atvērtā koda Jsoup bibliotēka ļauj programmatūras izstrādātājiem ērti ielādēt un modificēt HTML dokumentus savās Java lietojumprogrammās. Neatkarīgi no tā, vai tas ir elementu pievienošana, dzēšana vai modificēšana, Jsoup nodrošina ērtu API HTML struktūras manipulēšanai. Šī funkcija ir nenovērtējama, kad tiek iegūti dati un saglabāti vēlamajā formātā vai kad tiek veidoti rīki, kas programmatiskā veidā modificē HTML saturu.