Bezplatné Java API pro extrakci, analýzu a zpracování HTML

Open Source Java Knihovna pro načítání, analýzu, získávání URL, extrakci a manipulaci s daty, využívající nejlepší metody HTML5 DOM a CSS selektorů.

Jsoup je velmi výkonná Java knihovna, která umožňuje vývojářům softwaru zvládat úkoly související s HTML uvnitř jejich vlastních Java aplikací. Když jde o web scraping a HTML parsing v Javě, Jsoup se stal populární a mocnou knihovnou. Poskytuje pohodlný a intuitivní způsob, jak analyzovat a extrahovat data z HTML dokumentů, manipulovat s DOM a snadno procházet HTML strukturu. Jsoup je open source projekt distribuovaný pod liberální licencí MIT. Jako Java knihovna se Jsoup bezproblémově integruje s existujícími Java projekty, což z něj činí ideální volbu pro Java vývojáře.

Jsoup je bezplatná Java knihovna, která umožňuje vývojářům softwaru extrahovat a manipulovat s daty z HTML a XML dokumentů. Působí jako pohodlný most mezi Javou a světem webového scrapingu, nabízející robustní sadu funkcí pro získávání, analýzu, manipulaci a procházení HTML obsahu. Ať už potřebujete extrahovat konkrétní data z webové stránky, scrapovat více stránek nebo upravit strukturu HTML dokumentů, Jsoup poskytuje uživatelsky přívětivé API pro splnění těchto úkolů.

Jsoup poskytuje čisté a intuitivní API, které je přátelské k začátečníkům a rychlé na naučení. S přehlednými metodami pro analýzu, manipulaci a procházení HTML mohou vývojáři začít sbírat webová data během chvilky. Jeho rozšiřitelnost umožňuje softwarovým vývojářům vytvářet vlastní funkce nad rámec knihovny. Podporuje uživatelsky definované atributy, vlastní filtry a vlastní procházeče, což umožňuje softwarovým vývojářům přizpůsobit knihovnu jejich specifickým potřebám. Jeho intuitivní API, spolu s širokou škálou funkcí, z něj činí populární volbu mezi vývojáři. Ať už potřebujete extrahovat data, manipulovat s DOM nebo řešit složité HTML scénáře, Jsoup zjednodušuje proces a poskytuje robustní řešení.

Na první pohled

Přehled funkcí Jsoup.

Přehled funkcí

Web Scraping
Manipulace s HTML soubory
Extrahovat obrázky z HTML
Otevřít HTML
Číst HTML
Analyzovat HTML
HTML vykreslování
HTML prohlížeč
HTML do PDF
Extrahovat TOC
Extrahovat prostý text

Jsoup

Jsoup podporuje formát HTML a také standardní formáty pro export v průmyslu.

Čtenář

HTML

Autor

TXT, HTML , PDF

Jsoup

Nezávislost na platformě

Jsoup vyžaduje pouze Java runtime.

Java 8 a vyšší.

Jsoup

Začínáme s Jsoup

Doporučený způsob použití Jsoup je zahrnout potřebnou konfiguraci Maven nebo Gradle, nebo ručně importovat JAR soubor do vašeho projektu. Prosím, přidejte závislost Maven pro plynulou funkčnost.

Jsoup Maven Závislost

<závislost>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <verze>1.16.1</verze>
</dependency>

Instalace knihovny Jsoup pomocí Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

Analýza HTML souboru pomocí Java API

Jednou z hlavních funkcionalit open source knihovny Jsoup je její schopnost analyzovat HTML dokumenty uvnitř Java aplikací. Knihovna umožňuje extrahovat data z HTML dokumentů pomocí URL směřující na webovou stránku, surových HTML řetězců nebo přímo načtením souboru z disku. Pro analýzu HTML dokumentu pomocí Jsoup mohou softwaroví vývojáři využít metodu Jsoup.parse(). Tato metoda přijímá HTML obsah jako řetězec a vrací objekt Document, který představuje analyzované HTML. Odtud mohou vývojáři procházet DOM strom a extrahovat požadované prvky pomocí selektorů nebo metod procházení. Následující příklad ukazuje, jak analyzovat webovou stránku do DOM a vybrat z ní titulky pomocí příkazů jazyka Java.

Jak analyzovat HTML soubor a extrahovat z něj titulky pomocí Java API?pre>Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}

Extrakce dat z HTML souboru pomocí Javy

Knihovna Jsoup obsahuje velmi užitečné funkce pro načítání a extrakci dat z HTML dokumentů uvnitř Java aplikací. Knihovna nabízí intuitivní metody pro extrakci dat z HTML prvků. Podporuje extrakci textu, získávání atributů a serializaci HTML, což vývojářům poskytuje potřebné nástroje pro extrakci a manipulaci s daty podle potřeby. To usnadňuje integraci funkcionalit webového scrapingu do Java aplikací. Následující příklad ukazuje, jak mohou programátoři extrahovat atributy, text a HTML z prvků uvnitř Java aplikací.

Jak extrahovat atributy, text a HTML z prvků pomocí Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Upravit a manipulovat s HTML soubory pomocí Java API

Knihovna Jsoup s otevřeným zdrojovým kódem umožňuje vývojářům softwaru snadno načítat a upravovat HTML dokumenty uvnitř jejich vlastních Java aplikací. Ať už se jedná o přidávání, odstraňování nebo úpravu prvků, Jsoup poskytuje pohodlné API pro manipulaci s HTML strukturou. Tato funkce se ukazuje jako neocenitelná při získávání dat a jejich ukládání v požadovaném formátu nebo při vytváření nástrojů, které programově upravují HTML obsah.