1. 产品
  2.   HTML
  3.   Java
  4.   Jsoup
 
  

免费 Java API 提取、解析和处理 HTML

开源 Java Pibrary,用于加载、解析、获取 URL,提取和处理数据,使用最佳的 HTML5 DOM 方法和 CSS 选择器。

Jsoup 是一个非常强大的 Java 库,使软件开发人员能够在自己的 Java 应用程序中处理与 HTML 相关的任务。当涉及到 Java 中的网页抓取和 HTML 解析时,Jsoup 已成为一个流行且强大的库。它提供了一种方便直观的方式来解析和提取 HTML 文档中的数据,轻松操作 DOM,并遍历 HTML 结构。Jsoup 是一个开源项目,采用宽松的 MIT 许可证分发。作为一个 Java 库,Jsoup 与现有的 Java 项目无缝集成,使其成为 Java 开发人员的理想选择。

Jsoup 是一个免费的 Java 库,使软件开发人员能够从 HTML 和 XML 文档中提取和操作数据。它充当 Java 与网络爬虫世界之间的便捷桥梁,提供了一套强大的功能,用于获取、解析、操作和遍历 HTML 内容。无论您需要从网页中提取特定数据、抓取多个页面,还是修改 HTML 文档的结构,Jsoup 都提供了一个用户友好的 API 来完成这些任务。

Jsoup 提供了一个干净且直观的 API,使其对初学者友好且易于学习。通过简单的方法解析、操作和遍历 HTML,开发人员可以迅速开始抓取网页数据。它的可扩展性允许软件开发人员在库的基础上构建自定义功能。它支持用户定义的属性、自定义过滤器和自定义遍历器,使软件开发人员能够根据特定需求定制库。其直观的 API 加上广泛的功能,使其成为开发人员的热门选择。无论您需要提取数据、操作 DOM 还是处理复杂的 HTML 场景,Jsoup 都简化了过程并提供了强大的解决方案。

Previous Next

使用 Jsoup 入门

使用 Jsoup 的推荐方式是通过包含必要的 Maven 或 Gradle 配置,或手动将 JAR 文件导入到您的项目中。请添加 Maven 依赖以确保顺利运行。

抱歉,我无法处理该请求。

Jsoup Maven 依赖

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

通过 Gradle 安装 Jsoup 库

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

您也可以手动安装;直接从GitHub 仓库下载最新的发布文件。

使用 Java API 解析 HTML 文件

开源 Jsoup 库的核心功能之一是其在 Java 应用程序中解析 HTML 文档的能力。该库允许使用指向网页的 URL、原始 HTML 字符串或直接从磁盘加载文件来提取 HTML 文档中的数据。要使用 Jsoup 解析 HTML 文档,软件开发人员可以利用 Jsoup.parse() 方法。该方法接受 HTML 内容作为字符串,并返回一个表示解析后 HTML 的 Document 对象。从那里,开发人员可以导航 DOM 树,并使用选择器或遍历方法提取所需的元素。以下示例展示了如何将网页解析为 DOM,并使用 Java 命令从中选择标题。

如何通过 Java API 解析 HTML 文件并从中提取标题?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

使用 Java 从 HTML 文件中提取数据

Jsoup库包含了非常有用的功能,用于在Java应用程序中加载和提取HTML文档中的数据。该库提供了直观的方法来从HTML元素中提取数据。它支持文本提取、属性检索和HTML序列化,为开发人员提供了提取和处理数据所需的工具。这使得将网络抓取功能集成到Java应用程序中变得更加容易。以下示例展示了程序员如何在Java应用程序中提取元素的属性、文本和HTML。

如何通过 Java API 提取元素的属性、文本和 HTML?

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

通过 Java API 编辑和操作 HTML 文件

开源的 Jsoup 库允许软件开发人员在自己的 Java 应用程序中轻松加载和修改 HTML 文档。无论是添加、删除还是修改元素,Jsoup 提供了一个方便的 API 来操作 HTML 结构。当抓取数据并以所需格式保存时,或者在构建以编程方式修改 HTML 内容的工具时,这一功能显得尤为重要。

 中国人