ฟรี Java API สำหรับการดึงข้อมูล, วิเคราะห์ & ประมวลผล HTML

ไลบรารี Java แบบโอเพนซอร์สสำหรับการโหลด, การวิเคราะห์, การดึง URL, การสกัดและการจัดการข้อมูล โดยใช้วิธีการ DOM ของ HTML5 และตัวเลือก CSS ที่ดีที่สุด.

Jsoup เป็นไลบรารี Java ที่มีความสามารถสูงซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถจัดการงานที่เกี่ยวข้องกับ HTML ภายในแอปพลิเคชัน Java ของตนเอง เมื่อพูดถึงการดึงข้อมูลจากเว็บและการวิเคราะห์ HTML ใน Java, Jsoup ได้กลายเป็นไลบรารีที่ได้รับความนิยมและมีประสิทธิภาพ มันให้วิธีที่สะดวกและเข้าใจง่ายในการวิเคราะห์และดึงข้อมูลจากเอกสาร HTML, จัดการ DOM, และเดินทางผ่านโครงสร้าง HTML ได้อย่างง่ายดาย Jsoup เป็นโครงการโอเพนซอร์สที่แจกจ่ายภายใต้ใบอนุญาต MIT ที่เป็นเสรี ในฐานะที่เป็นไลบรารี Java, Jsoup สามารถรวมเข้ากับโครงการ Java ที่มีอยู่ได้อย่างราบรื่น ทำให้เป็นตัวเลือกที่เหมาะสมสำหรับนักพัฒนา Java.

Jsoup เป็นไลบรารี Java ที่ใช้งานได้ฟรี ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถดึงข้อมูลและจัดการข้อมูลจากเอกสาร HTML และ XML ได้ มันทำหน้าที่เป็นสะพานที่สะดวกสบายระหว่าง Java และโลกของการดึงข้อมูลจากเว็บ โดยมีชุดฟีเจอร์ที่แข็งแกร่งสำหรับการดึงข้อมูล การวิเคราะห์ การจัดการ และการเดินทางผ่านเนื้อหา HTML ไม่ว่าคุณจะต้องการดึงข้อมูลเฉพาะจากหน้าเว็บ ดึงข้อมูลจากหลายหน้า หรือปรับโครงสร้างของเอกสาร HTML Jsoup ก็มี API ที่ใช้งานง่ายเพื่อทำงานเหล่านี้ให้สำเร็จ

Jsoup มี API ที่สะอาดและใช้งานง่ายซึ่งทำให้เหมาะสำหรับผู้เริ่มต้นและเรียนรู้ได้อย่างรวดเร็ว ด้วยวิธีการที่ตรงไปตรงมาสำหรับการวิเคราะห์ การจัดการ และการเดินทางใน HTML นักพัฒนาสามารถเริ่มต้นการดึงข้อมูลจากเว็บได้ในเวลาไม่นาน ความสามารถในการขยายตัวช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างฟังก์ชันการทำงานที่กำหนดเองบนพื้นฐานของไลบรารีนี้ มันรองรับคุณสมบัติที่ผู้ใช้กำหนด ฟิลเตอร์ที่กำหนดเอง และตัวเดินทางที่กำหนดเอง ทำให้นักพัฒนาซอฟต์แวร์สามารถปรับแต่งไลบรารีให้ตรงตามความต้องการเฉพาะของพวกเขา API ที่ใช้งานง่ายของมัน พร้อมกับฟีเจอร์ที่หลากหลาย ทำให้มันเป็นตัวเลือกที่ได้รับความนิยมในหมู่นักพัฒนา ไม่ว่าคุณจะต้องการดึงข้อมูล จัดการ DOM หรือจัดการกับสถานการณ์ HTML ที่ซับซ้อน Jsoup ทำให้กระบวนการง่ายขึ้นและให้โซลูชันที่แข็งแกร่ง

Previous Next

เริ่มต้นใช้งาน Jsoup

วิธีที่แนะนำในการใช้ Jsoup คือการรวมการกำหนดค่า Maven หรือ Gradle ที่จำเป็น หรือโดยการนำเข้าไฟล์ JAR ลงในโปรเจกต์ของคุณด้วยตนเอง กรุณาเพิ่มการพึ่งพา maven เพื่อให้ทำงานได้อย่างราบรื่น.

การพึ่งพา Maven ของ Jsoup

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Install Jsoup Library via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

You can also install it manually; download the latest release files directly from GitHub repository.

การแยกไฟล์ HTML โดยใช้ Java API

หนึ่งในฟังก์ชันหลักของไลบรารี Jsoup ที่เป็นโอเพนซอร์สคือความสามารถในการวิเคราะห์เอกสาร HTML ภายในแอปพลิเคชัน Java ไลบรารีนี้อนุญาตให้ดึงข้อมูลจากเอกสาร HTML โดยใช้ URL ที่ชี้ไปยังหน้าเว็บ สตริง HTML ดิบ หรือโดยการโหลดไฟล์จากดิสก์โดยตรง เพื่อวิเคราะห์เอกสาร HTML โดยใช้ Jsoup นักพัฒนาซอฟต์แวร์สามารถใช้วิธี Jsoup.parse() วิธีนี้รับเนื้อหา HTML เป็นสตริงและส่งคืนวัตถุ Document ที่แสดงถึง HTML ที่ถูกวิเคราะห์ จากนั้นนักพัฒนาสามารถนำทางต้นไม้ DOM และดึงองค์ประกอบที่ต้องการโดยใช้ตัวเลือกหรือวิธีการเดินทาง ตัวอย่างต่อไปนี้แสดงวิธีการวิเคราะห์หน้าเว็บเป็น DOM และเลือกหัวข้อข่าวจากมันโดยใช้คำสั่ง java.

วิธีการแยกไฟล์ HTML และดึงหัวข้อจากมันผ่าน Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

ดึงข้อมูลจากไฟล์ HTML โดยใช้ Java

ไลบรารี Jsoup ได้รวมฟังก์ชันที่มีประโยชน์มากสำหรับการโหลดและดึงข้อมูลจากเอกสาร HTML ภายในแอปพลิเคชัน Java ไลบรารีนี้มีวิธีการที่เข้าใจง่ายในการดึงข้อมูลจากองค์ประกอบ HTML รองรับการดึงข้อความ การเรียกคืนแอตทริบิวต์ และการจัดเรียง HTML ซึ่งให้เครื่องมือที่จำเป็นแก่ผู้พัฒนาในการดึงและจัดการข้อมูลตามที่ต้องการ สิ่งนี้ทำให้การรวมฟังก์ชันการดึงข้อมูลจากเว็บเข้ากับแอปพลิเคชัน Java ง่ายขึ้น ตัวอย่างต่อไปนี้แสดงให้เห็นว่านักพัฒนาสามารถดึงแอตทริบิวต์ ข้อความ และ HTML จากองค์ประกอบภายในแอปพลิเคชัน Java ได้อย่างไร

วิธีการดึงคุณสมบัติ ข้อความ และ HTML จากองค์ประกอบผ่าน Java API?

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

แก้ไขและจัดการไฟล์ HTML ผ่าน Java API

ไลบรารี Jsoup แบบโอเพนซอร์สช่วยให้นักพัฒนาซอฟต์แวร์สามารถโหลดและแก้ไขเอกสาร HTML ได้อย่างง่ายดายในแอปพลิเคชัน Java ของตน ไม่ว่าจะเป็นการเพิ่ม ลบ หรือแก้ไของค์ประกอบ Jsoup มี API ที่สะดวกในการจัดการโครงสร้าง HTML ฟีเจอร์นี้มีความสำคัญอย่างยิ่งเมื่อทำการดึงข้อมูลและบันทึกในรูปแบบที่ต้องการหรือเมื่อสร้างเครื่องมือที่แก้ไขเนื้อหา HTML โดยอัตโนมัติ.

 ไทย