Gratis Java API för att extrahera, analysera och bearbeta HTML

Öppen källkod Java-bibliotek för att ladda, analysera, hämta URL:er, extrahera och manipulera data, med hjälp av de bästa HTML5 DOM-metoderna och CSS-selektorer.

Jsoup är ett mycket kraftfullt Java-bibliotek som gör det möjligt för mjukvaruutvecklare att hantera HTML-relaterade uppgifter i sina egna Java-applikationer. När det kommer till web scraping och HTML-parsing i Java har Jsoup framträtt som ett populärt och kraftfullt bibliotek. Det erbjuder ett bekvämt och intuitivt sätt att parsa och extrahera data från HTML-dokument, manipulera DOM och navigera i HTML-strukturen med lätthet. Jsoup är ett öppen källkodsprojekt som distribueras under den liberala MIT-licensen. Som ett Java-bibliotek integreras Jsoup sömlöst med befintliga Java-projekt, vilket gör det till ett idealiskt val för Java-utvecklare.

Jsoup är ett gratis Java-bibliotek som gör det möjligt för mjukvaruutvecklare att extrahera och manipulera data från HTML- och XML-dokument. Det fungerar som en bekväm bro mellan Java och världen av web scraping, och erbjuder en robust uppsättning funktioner för att hämta, analysera, manipulera och navigera i HTML-innehåll. Oavsett om du behöver extrahera specifik data från en webbsida, skrapa flera sidor eller modifiera strukturen på HTML-dokument, erbjuder Jsoup ett användarvänligt API för att utföra dessa uppgifter.

Jsoup erbjuder ett rent och intuitivt API som gör det nybörjarvänligt och snabbt att lära sig. Med enkla metoder för att analysera, manipulera och navigera i HTML kan utvecklare börja skrapa webbdata på nolltid. Dess utbyggbarhet gör att mjukvaruutvecklare kan bygga anpassad funktionalitet ovanpå biblioteket. Det stöder användardefinierade attribut, anpassade filter och anpassade traverserare, vilket gör att mjukvaruutvecklare kan skräddarsy biblioteket efter sina specifika behov. Dess intuitiva API, tillsammans med ett brett utbud av funktioner, gör det till ett populärt val bland utvecklare. Oavsett om du behöver extrahera data, manipulera DOM eller hantera komplexa HTML-scenarier, förenklar Jsoup processen och erbjuder robusta lösningar.

Översikt

En översikt över Jsoup-funktioner.

Översikt över funktioner

Webbskrapning
Manipulera HTML-filer
Extrahera bilder från HTML
Öppna HTML
Läs HTML
Analysera HTML
HTML-rendering
HTML-visare
HTML till PDF
Extrahera TOC
Extrahera ren text

Jsoup

Jsoup stöder HTML-filformat samt branschstandardformat för export.

Läsare

HTML

Författare

TXT, HTML , PDF

Jsoup

Plattformsoberoende

Jsoup kräver endast Java-runtime.

Java 8 och högre.

Jsoup

Komma igång med Jsoup

Det rekommenderade sättet att använda Jsoup är att inkludera den nödvändiga Maven- eller Gradle-konfigurationen eller genom att manuellt importera JAR-filen i ditt projekt. Vänligen lägg till Maven-beroendet för smidig funktion.

Jsoup Maven-beroende

<beroende>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</beroende>

Installera Jsoup-biblioteket via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Du kan också installera det manuellt; ladda ner de senaste versionsfilerna direkt från GitHub -arkivet.

Parsing HTML-fil med Java API

En av de grundläggande funktionerna i det öppna källkods Jsoup-biblioteket är dess förmåga att analysera HTML-dokument inuti Java-applikationer. Biblioteket möjliggör att extrahera data från HTML-dokument med hjälp av en URL som pekar på en webbsida, råa HTML-strängar eller direkt genom att ladda en fil från disken. För att analysera ett HTML-dokument med Jsoup kan mjukvaruutvecklare använda metoden Jsoup.parse(). Denna metod accepterar HTML-innehållet som en sträng och returnerar ett Document-objekt som representerar den analyserade HTML:en. Därifrån kan utvecklare navigera i DOM-trädet och extrahera de önskade elementen med hjälp av selektorer eller traverseringsmetoder. Följande exempel visar hur man analyserar en webbsida till en DOM och väljer rubriker från den med hjälp av java-kommandon.

Hur man analyserar en HTML-fil och extraherar rubriker från den via Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Extrahera data från HTML-fil med Java

Jsoup-biblioteket har inkluderat mycket användbara funktioner för att ladda och extrahera data från HTML-dokument inuti Java-applikationer. Biblioteket erbjuder intuitiva metoder för att extrahera data från HTML-element. Det stöder textutvinning, attributhämtning och HTML-serialisering, vilket ger utvecklare de nödvändiga verktygen för att extrahera och manipulera data som krävs. Detta gör det enklare att integrera web scraping-funktioner i Java-applikationer. Följande exempel visar hur programmerare kan extrahera attribut, text och HTML från element inuti Java-applikationer.

Hur man extraherar attribut, text och HTML från element via Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Redigera och manipulera HTML-filer via Java API

Det öppna källkods-biblioteket Jsoup gör det möjligt för mjukvaruutvecklare att enkelt ladda och modifiera HTML-dokument inuti sina egna Java-applikationer. Oavsett om det handlar om att lägga till, ta bort eller modifiera element, erbjuder Jsoup ett bekvämt API för att manipulera HTML-strukturen. Denna funktion visar sig vara ovärderlig när man skrapar data och sparar den i ett önskat format eller när man bygger verktyg som programmässigt modifierar HTML-innehåll.