API de Java gratuita para extraer, analizar y procesar HTML

Biblioteca Java de Código Abierto para Cargar, Analizar, Obtener URLs, Extraer y Manipular Datos, utilizando lo mejor de los métodos DOM de HTML5 y selectores CSS.

Jsoup es una biblioteca de Java muy poderosa que permite a los desarrolladores de software manejar tareas relacionadas con HTML dentro de sus propias aplicaciones Java. Cuando se trata de web scraping y análisis de HTML en Java, Jsoup ha surgido como una biblioteca popular y poderosa. Proporciona una forma conveniente e intuitiva de analizar y extraer datos de documentos HTML, manipular el DOM y recorrer la estructura HTML con facilidad. Jsoup es un proyecto de código abierto distribuido bajo la licencia liberal MIT. Como biblioteca de Java, Jsoup se integra sin problemas con proyectos Java existentes, lo que lo convierte en una opción ideal para los desarrolladores de Java.

Jsoup es una biblioteca de Java gratuita que permite a los desarrolladores de software extraer y manipular datos de documentos HTML y XML. Actúa como un puente conveniente entre Java y el mundo del web scraping, ofreciendo un conjunto robusto de características para obtener, analizar, manipular y recorrer contenido HTML. Ya sea que necesite extraer datos específicos de una página web, raspar múltiples páginas o modificar la estructura de documentos HTML, Jsoup proporciona una API fácil de usar para llevar a cabo estas tareas.

Jsoup proporciona una API limpia e intuitiva que la hace amigable para principiantes y rápida de aprender. Con métodos sencillos para analizar, manipular y recorrer HTML, los desarrolladores pueden comenzar a extraer datos web en poco tiempo. Su extensibilidad permite a los desarrolladores de software construir funcionalidades personalizadas sobre la biblioteca. Soporta atributos definidos por el usuario, filtros personalizados y recorridos personalizados, lo que permite a los desarrolladores de software adaptar la biblioteca a sus necesidades específicas. Su API intuitiva, junto con una amplia gama de características, la convierte en una opción popular entre los desarrolladores. Ya sea que necesites extraer datos, manipular el DOM o manejar escenarios HTML complejos, Jsoup simplifica el proceso y proporciona soluciones robustas.

A Simple Vista

Una visión general de las características de Jsoup.

Descripción general de características

Raspado de Web
Manipular archivos HTML
Extraer imágenes de HTML
Abrir HTML
Leer HTML
Analizar HTML
Renderizado HTML
Visor HTML
HTML a PDF
Extraer TOC
Extraer texto plano

Jsoup

Jsoup admite el formato de archivo HTML así como formatos estándar de la industria para la exportación.

Lector

HTML

Escritor

TXT, HTML, PDF

Jsoup

Independencia de la Plataforma

Jsoup solo requiere el tiempo de ejecución de Java.

Java 8 y superior.

Jsoup

Introducción a Jsoup

La forma recomendada de usar Jsoup es incluyendo la configuración necesaria de Maven o Gradle o importando manualmente el archivo JAR en tu proyecto. Por favor, añade la dependencia de Maven para un funcionamiento fluido.

Dependencia de Maven de Jsoup

pre>

<dependency>
<groupId>org.jsoup</groupId>
<artifactId>Jsoup</artifactId>
<version>1.16.1</version>
</dependency>

Instalar la biblioteca Jsoup a través de Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

También puedes instalarlo manualmente; descarga los archivos de la última versión directamente del repositorio de GitHub.

Analizando archivo HTML usando la API de Java

Una de las funcionalidades principales de la biblioteca de código abierto Jsoup es su capacidad para analizar documentos HTML dentro de aplicaciones Java. La biblioteca permite extraer datos de documentos HTML utilizando una URL que apunta a una página web, cadenas HTML en bruto o directamente cargando un archivo desde el disco. Para analizar un documento HTML utilizando Jsoup, los desarrolladores de software pueden utilizar el método Jsoup.parse(). Este método acepta el contenido HTML como una cadena y devuelve un objeto Document que representa el HTML analizado. A partir de ahí, los desarrolladores pueden navegar por el árbol DOM y extraer los elementos deseados utilizando selectores o métodos de recorrido. El siguiente ejemplo muestra cómo analizar una página web a un DOM y seleccionar los titulares de ella utilizando comandos de Java.

¿Cómo analizar un archivo HTML y extraer titulares de él a través de la API de Java?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Extraer datos de un archivo HTML usando Java

La biblioteca Jsoup ha incluido funciones muy útiles para cargar y extraer datos de documentos HTML dentro de aplicaciones Java. La biblioteca ofrece métodos intuitivos para extraer datos de elementos HTML. Soporta la extracción de texto, la recuperación de atributos y la serialización de HTML, proporcionando a los desarrolladores las herramientas necesarias para extraer y manipular datos según sea necesario. Esto facilita la integración de funcionalidades de web scraping en aplicaciones Java. El siguiente ejemplo muestra cómo los programadores pueden extraer atributos, texto y HTML de elementos dentro de aplicaciones Java.

¿Cómo extraer atributos, texto y HTML de elementos a través de la API de Java?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Editar y manipular archivos HTML a través de la API de Java

La biblioteca de código abierto Jsoup permite a los desarrolladores de software cargar y modificar documentos HTML sin esfuerzo dentro de sus propias aplicaciones Java. Ya sea agregando, eliminando o modificando elementos, Jsoup proporciona una API conveniente para manipular la estructura HTML. Esta característica resulta invaluable al extraer datos y guardarlos en un formato deseado o al construir herramientas que modifican el contenido HTML de manera programática.