1. Produk
  2.   HTML
  3.   Java
  4.   Jsoup
 
  

API Java Gratis untuk Mengekstrak, Mengurai & Memproses HTML

Perpustakaan Java Sumber Terbuka untuk Memuat, Mengurai, Mengambil URL, Mengekstrak dan Memanipulasi Data, menggunakan metode DOM HTML5 dan pemilih CSS terbaik.

Jsoup adalah pustaka Java yang sangat kuat yang memungkinkan pengembang perangkat lunak untuk menangani tugas-tugas terkait HTML di dalam aplikasi Java mereka sendiri. Ketika berbicara tentang web scraping dan parsing HTML di Java, Jsoup telah muncul sebagai pustaka yang populer dan kuat. Ini menyediakan cara yang nyaman dan intuitif untuk mem-parsing dan mengekstrak data dari dokumen HTML, memanipulasi DOM, dan menjelajahi struktur HTML dengan mudah. Jsoup adalah proyek sumber terbuka yang didistribusikan di bawah lisensi MIT yang liberal. Sebagai pustaka Java, Jsoup terintegrasi dengan mulus ke dalam proyek Java yang ada, menjadikannya pilihan ideal bagi pengembang Java.

Jsoup adalah pustaka Java yang gratis untuk digunakan yang memungkinkan pengembang perangkat lunak untuk mengekstrak dan memanipulasi data dari dokumen HTML dan XML. Ini berfungsi sebagai jembatan yang nyaman antara Java dan dunia pengambilan data web, menawarkan serangkaian fitur yang kuat untuk mengambil, mem-parsing, memanipulasi, dan menjelajahi konten HTML. Apakah Anda perlu mengekstrak data tertentu dari halaman web, mengikis beberapa halaman, atau memodifikasi struktur dokumen HTML, Jsoup menyediakan API yang ramah pengguna untuk menyelesaikan tugas-tugas ini.

Jsoup menyediakan API yang bersih dan intuitif yang membuatnya ramah pemula dan cepat dipelajari. Dengan metode yang sederhana untuk mem-parsing, memanipulasi, dan menjelajahi HTML, pengembang dapat mulai mengambil data web dalam waktu singkat. Kemampuannya untuk diperluas memungkinkan pengembang perangkat lunak untuk membangun fungsionalitas kustom di atas pustaka ini. Ini mendukung atribut yang ditentukan pengguna, filter kustom, dan penjelajah kustom, memungkinkan pengembang perangkat lunak untuk menyesuaikan pustaka ini sesuai dengan kebutuhan spesifik mereka. API-nya yang intuitif, dipadukan dengan berbagai fitur, menjadikannya pilihan populer di kalangan pengembang. Apakah Anda perlu mengekstrak data, memanipulasi DOM, atau menangani skenario HTML yang kompleks, Jsoup menyederhanakan proses dan menyediakan solusi yang kuat.

Previous Next

Memulai dengan Jsoup

Cara yang disarankan untuk menggunakan Jsoup adalah dengan menyertakan konfigurasi Maven atau Gradle yang diperlukan atau dengan mengimpor file JAR secara manual ke dalam proyek Anda. Harap tambahkan ketergantungan maven untuk kelancaran kerja.

Ketergantungan Maven Jsoup

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Instal Perpustakaan Jsoup melalui Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari GitHub repositori.

Mengurai File HTML menggunakan Java API

Salah satu fungsi inti dari pustaka sumber terbuka Jsoup adalah kemampuannya untuk mem-parsing dokumen HTML di dalam aplikasi Java. Pustaka ini memungkinkan untuk mengekstrak data dari dokumen HTML menggunakan URL yang mengarah ke halaman web, string HTML mentah, atau langsung dengan memuat file dari disk. Untuk mem-parsing dokumen HTML menggunakan Jsoup, pengembang perangkat lunak dapat memanfaatkan metode Jsoup.parse(). Metode ini menerima konten HTML sebagai string dan mengembalikan objek Document yang mewakili HTML yang telah diparsing. Dari sana, pengembang dapat menavigasi pohon DOM dan mengekstrak elemen yang diinginkan menggunakan pemilih atau metode penelusuran. Contoh berikut menunjukkan cara mem-parsing halaman web menjadi DOM, dan memilih judul dari sana menggunakan perintah java.

Bagaimana Cara Mengurai File HTML dan Mengekstrak Judul dari Itu Melalui API Java?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Ekstrak Data dari File HTML menggunakan Java

Perpustakaan Jsoup telah menyertakan fungsi yang sangat berguna untuk memuat dan mengekstrak data dari dokumen HTML di dalam aplikasi Java. Perpustakaan ini menawarkan metode intuitif untuk mengekstrak data dari elemen HTML. Ini mendukung ekstraksi teks, pengambilan atribut, dan serialisasi HTML, memberikan pengembang alat yang diperlukan untuk mengekstrak dan memanipulasi data sesuai kebutuhan. Ini memudahkan untuk mengintegrasikan fungsionalitas web scraping ke dalam aplikasi Java. Contoh berikut menunjukkan bagaimana programmer dapat mengekstrak atribut, teks, dan HTML dari elemen di dalam aplikasi Java.

Bagaimana Cara Mengekstrak Atribut, Teks, dan HTML dari Elemen melalui Java API?

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

Edit dan Manipulasi File HTML melalui Java API

Perpustakaan sumber terbuka Jsoup memungkinkan pengembang perangkat lunak untuk memuat dan memodifikasi dokumen HTML dengan mudah di dalam aplikasi Java mereka sendiri. Baik itu menambahkan, menghapus, atau memodifikasi elemen, Jsoup menyediakan API yang nyaman untuk memanipulasi struktur HTML. Fitur ini sangat berharga saat mengumpulkan data dan menyimpannya dalam format yang diinginkan atau saat membangun alat yang memodifikasi konten HTML secara programatis.

 Indonesia