1. Produk
  2.   HTML
  3.   Java
  4.   Jsoup
 
  

API Java Percuma untuk Mengekstrak, Menganalisis & Memproses HTML

Perpustakaan Java Sumber Terbuka untuk Memuat, Mengurai, Mengambil URL, Mengekstrak dan Memanipulasi Data, menggunakan kaedah DOM HTML5 dan pemilih CSS yang terbaik.

Jsoup adalah perpustakaan Java yang sangat kuat yang membolehkan pemaju perisian untuk mengendalikan tugas berkaitan HTML di dalam aplikasi Java mereka sendiri. Apabila bercakap tentang pengikisan web dan penguraian HTML dalam Java, Jsoup telah muncul sebagai perpustakaan yang popular dan berkuasa. Ia menyediakan cara yang mudah dan intuitif untuk menguraikan dan mengekstrak data daripada dokumen HTML, memanipulasi DOM, dan melayari struktur HTML dengan mudah. Jsoup adalah projek sumber terbuka yang diedarkan di bawah lesen MIT yang liberal. Sebagai perpustakaan Java, Jsoup berintegrasi dengan lancar dengan projek Java yang sedia ada, menjadikannya pilihan ideal untuk pemaju Java.

Jsoup is free to use Java library that enables software developers to extract and manipulate data from HTML and XML documents. It acts as a convenient bridge between Java and the world of web scraping, offering a robust set of features for fetching, parsing, manipulating, and traversing HTML content. Whether you need to extract specific data from a web page, scrape multiple pages, or modify the structure of HTML documents, Jsoup provides a user-friendly API to accomplish these tasks.

Jsoup menyediakan API yang bersih dan intuitif yang menjadikannya mesra pemula dan cepat untuk dipelajari. Dengan kaedah yang mudah untuk menganalisis, memanipulasi, dan melayari HTML, pemaju boleh mula mengikis data web dalam masa yang singkat. Keboleh擴an-nya membolehkan pemaju perisian membina fungsi khusus di atas pustaka ini. Ia menyokong atribut yang ditentukan oleh pengguna, penapis khusus, dan pelayar khusus, membolehkan pemaju perisian menyesuaikan pustaka ini mengikut keperluan spesifik mereka. API yang intuitif, digabungkan dengan pelbagai ciri, menjadikannya pilihan popular di kalangan pemaju. Sama ada anda perlu mengekstrak data, memanipulasi DOM, atau mengendalikan senario HTML yang kompleks, Jsoup memudahkan proses dan menyediakan penyelesaian yang kukuh.

Previous Next

Memulakan dengan Jsoup

Cara yang disyorkan untuk menggunakan Jsoup adalah dengan menyertakan konfigurasi Maven atau Gradle yang diperlukan atau dengan mengimport fail JAR secara manual ke dalam projek anda. Sila tambahkan kebergantungan maven untuk kelancaran kerja.

Kebergantungan Maven Jsoup

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Install Jsoup Library via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

Anda juga boleh memasangnya secara manual; muat turun fail keluaran terkini terus dari GitHub repositori.

Mengurai Fail HTML menggunakan Java API

Salah satu fungsi utama perpustakaan sumber terbuka Jsoup adalah kemampuannya untuk menganalisis dokumen HTML dalam aplikasi Java. Perpustakaan ini membolehkan pengambilan data dari dokumen HTML menggunakan URL yang menunjuk kepada halaman web, rentetan HTML mentah, atau secara langsung dengan memuatkan fail dari cakera. Untuk menganalisis dokumen HTML menggunakan Jsoup, pemaju perisian boleh menggunakan kaedah Jsoup.parse(). Kaedah ini menerima kandungan HTML sebagai rentetan dan mengembalikan objek Dokumen yang mewakili HTML yang telah dianalisis. Dari situ, pemaju boleh menavigasi pokok DOM dan mengekstrak elemen yang diingini menggunakan pemilih atau kaedah penjelajahan. Contoh berikut menunjukkan cara untuk menganalisis halaman web kepada DOM, dan memilih tajuk daripadanya menggunakan arahan java.

Bagaimana untuk Mengurai Fail HTML dan Mengekstrak Tajuk Daripadanya melalui API Java?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Mengeluarkan Data dari Fail HTML menggunakan Java

Perpustakaan Jsoup telah menyertakan fungsi yang sangat berguna untuk memuat dan mengekstrak data dari dokumen HTML dalam aplikasi Java. Perpustakaan ini menawarkan kaedah intuitif untuk mengekstrak data dari elemen HTML. Ia menyokong pengekstrakan teks, pengambilan atribut, dan pengesahan HTML, memberikan pemaju alat yang diperlukan untuk mengekstrak dan memanipulasi data seperti yang diperlukan. Ini memudahkan untuk mengintegrasikan fungsi pengikisan web ke dalam aplikasi Java. Contoh berikut menunjukkan bagaimana pengaturcara boleh mengekstrak atribut, teks, dan HTML dari elemen dalam aplikasi Java.

Bagaimana untuk Mengekstrak Atribut, Teks, dan HTML dari Elemen melalui Java API?

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

Edit dan Manipulasi Fail HTML melalui Java API

Perpustakaan sumber terbuka Jsoup membolehkan pemaju perisian memuat dan mengubah dokumen HTML dengan mudah di dalam aplikasi Java mereka sendiri. Sama ada menambah, mengeluarkan, atau mengubah elemen, Jsoup menyediakan API yang mudah untuk memanipulasi struktur HTML. Ciri ini terbukti sangat berguna apabila mengikis data dan menyimpannya dalam format yang diingini atau apabila membina alat yang mengubah kandungan HTML secara programatik.

 Melayu