API Java Gratuita para Extrair, Analisar e Processar HTML

Biblioteca Java de Código Aberto para Carregar, Analisar, Buscar URLs, Extrair e Manipular Dados, utilizando o melhor dos métodos DOM do HTML5 e seletores CSS.

Jsoup é uma biblioteca Java muito poderosa que permite aos desenvolvedores de software lidar com tarefas relacionadas a HTML dentro de suas próprias aplicações Java. Quando se trata de web scraping e parsing de HTML em Java, Jsoup se destacou como uma biblioteca popular e poderosa. Ela fornece uma maneira conveniente e intuitiva de analisar e extrair dados de documentos HTML, manipular o DOM e percorrer a estrutura HTML com facilidade. Jsoup é um projeto de código aberto distribuído sob a licença liberal MIT. Como uma biblioteca Java, Jsoup se integra perfeitamente a projetos Java existentes, tornando-se uma escolha ideal para desenvolvedores Java.

Jsoup é uma biblioteca Java gratuita que permite aos desenvolvedores de software extrair e manipular dados de documentos HTML e XML. Ela atua como uma ponte conveniente entre Java e o mundo da extração de dados da web, oferecendo um conjunto robusto de recursos para buscar, analisar, manipular e percorrer conteúdo HTML. Se você precisa extrair dados específicos de uma página da web, raspar várias páginas ou modificar a estrutura de documentos HTML, o Jsoup fornece uma API amigável para realizar essas tarefas.

O Jsoup fornece uma API limpa e intuitiva que a torna amigável para iniciantes e rápida de aprender. Com métodos diretos para analisar, manipular e percorrer HTML, os desenvolvedores podem começar a extrair dados da web em pouco tempo. Sua extensibilidade permite que os desenvolvedores de software construam funcionalidades personalizadas em cima da biblioteca. Ela suporta atributos definidos pelo usuário, filtros personalizados e percorredores personalizados, permitindo que os desenvolvedores de software adaptem a biblioteca às suas necessidades específicas. Sua API intuitiva, juntamente com uma ampla gama de recursos, a torna uma escolha popular entre os desenvolvedores. Se você precisa extrair dados, manipular o DOM ou lidar com cenários HTML complexos, o Jsoup simplifica o processo e fornece soluções robustas.

À Primeira Vista

Uma visão geral dos recursos do Jsoup.

Visão Geral das Funcionalidades

Raspagem de Dados
Manipular Arquivos HTML
Extrair Imagens do HTML
Abrir HTML
Leia HTML
Analisar HTML
Renderização HTML
Visualizador HTML
HTML para PDF
Extrair TOC
Extrair texto simples

Jsoup

Jsoup suporta o formato de arquivo HTML, bem como formatos padrão da indústria para exportação.

Leitor

HTML

Escritor

TXT, HTML , PDF

Jsoup

Independência da Plataforma

Jsoup só requer o tempo de execução do Java.

Java 8 e acima.

Java 8 and above.

Jsoup

Introdução ao Jsoup

A maneira recomendada de usar o Jsoup é incluindo a configuração necessária do Maven ou Gradle ou importando manualmente o arquivo JAR para o seu projeto. Por favor, adicione a dependência do Maven para um funcionamento suave.

Dependência do Maven Jsoup

<dependência>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  1.16.1
</dependência>

Instalar a Biblioteca Jsoup via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

Analisando Arquivo HTML usando a API Java

Uma das funcionalidades principais da biblioteca open source Jsoup é sua capacidade de analisar documentos HTML dentro de aplicações Java. A biblioteca permite extrair dados de documentos HTML usando uma URL que aponta para uma página da web, strings HTML brutas ou diretamente carregando um arquivo do disco. Para analisar um documento HTML usando Jsoup, os desenvolvedores de software podem utilizar o método Jsoup.parse(). Este método aceita o conteúdo HTML como uma string e retorna um objeto Document representando o HTML analisado. A partir daí, os desenvolvedores podem navegar na árvore DOM e extrair os elementos desejados usando seletores ou métodos de travessia. O seguinte exemplo mostra como analisar uma página da web para um DOM e selecionar as manchetes dela usando comandos Java.

Como Analisar um Arquivo HTML e Extrair Manchetes dele via API Java?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Extrair Dados de Arquivo HTML usando Java

A biblioteca Jsoup incluiu funções muito úteis para carregar e extrair dados de documentos HTML dentro de aplicações Java. A biblioteca oferece métodos intuitivos para extrair dados de elementos HTML. Ela suporta extração de texto, recuperação de atributos e serialização HTML, fornecendo aos desenvolvedores as ferramentas necessárias para extrair e manipular dados conforme necessário. Isso facilita a integração de funcionalidades de web scraping em aplicações Java. O exemplo a seguir mostra como os programadores podem extrair atributos, texto e HTML de elementos dentro de aplicações Java.

Como Extrair Atributos, Texto e HTML de Elementos via API Java?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Editar e Manipular Arquivos HTML via API Java

A biblioteca de código aberto Jsoup permite que desenvolvedores de software carreguem e modifiquem documentos HTML sem esforço dentro de suas próprias aplicações Java. Seja adicionando, removendo ou modificando elementos, o Jsoup fornece uma API conveniente para manipular a estrutura HTML. Esse recurso se mostra inestimável ao extrair dados e salvá-los em um formato desejado ou ao construir ferramentas que modificam o conteúdo HTML programaticamente.