Gratis Java API til at udtrække, analysere og behandle HTML

Open Source Java Pibrary til indlæsning, parsing, hentning af URL'er, udtrækning og manipulation af data ved hjælp af de bedste HTML5 DOM-metoder og CSS-selektorer.

Jsoup er et meget kraftfuldt Java-bibliotek, der gør det muligt for softwareudviklere at håndtere HTML-relaterede opgaver inden for deres egne Java-applikationer. Når det kommer til web scraping og HTML-parsing i Java, er Jsoup blevet en populær og kraftfuld biblioteksløsning. Det giver en bekvem og intuitiv måde at parse og udtrække data fra HTML-dokumenter, manipulere DOM'en og navigere i HTML-strukturen med lethed. Jsoup er et open source-projekt, der distribueres under den liberale MIT-licens. Som et Java-bibliotek integreres Jsoup problemfrit med eksisterende Java-projekter, hvilket gør det til et ideelt valg for Java-udviklere.

Jsoup er et gratis Java-bibliotek, der gør det muligt for softwareudviklere at udtrække og manipulere data fra HTML- og XML-dokumenter. Det fungerer som en praktisk bro mellem Java og verdenen af web scraping og tilbyder et robust sæt funktioner til at hente, analysere, manipulere og navigere i HTML-indhold. Uanset om du har brug for at udtrække specifikke data fra en webside, scrape flere sider eller ændre strukturen af HTML-dokumenter, giver Jsoup en brugervenlig API til at udføre disse opgaver.

Jsoup tilbyder en ren og intuitiv API, der gør den nybegyndervenlig og hurtig at lære. Med enkle metoder til at analysere, manipulere og navigere i HTML kan udviklere begynde at skrabe webdata på ingen tid. Dens udvidelsesmuligheder gør det muligt for softwareudviklere at bygge brugerdefineret funktionalitet oven på biblioteket. Det understøtter brugerdefinerede attributter, brugerdefinerede filtre og brugerdefinerede traverser, hvilket gør det muligt for softwareudviklere at tilpasse biblioteket til deres specifikke behov. Dens intuitive API, sammen med et bredt udvalg af funktioner, gør det til et populært valg blandt udviklere. Uanset om du har brug for at udtrække data, manipulere DOM'en eller håndtere komplekse HTML-scenarier, forenkler Jsoup processen og tilbyder robuste løsninger.

I'm sorry, but it seems that the text you provided is not suitable for translation as it does not contain any translatable content. Please provide a different text that includes English content for translation to Danish.

Ved Første Øjekast

En oversigt over Jsoup-funktioner.

Funktioner Oversigt

Web Scraping
Manipulere HTML-filer
Uddrag billeder fra HTML
Åbn HTML
Læs HTML
Parse HTML
HTML gengivelse
HTML Visning
HTML til PDF
Uddrag TOC
Uddrag almindelig tekst

Jsoup

Jsoup understøtter HTML-filformat samt branchestandardformater til eksport.

Læser

HTML

Forfatter

TXT, HTML , PDF

Jsoup

Platform Uafhængighed

Jsoup kræver kun Java-runtime.

Java 8 og derover.

Jsoup

Kom godt i gang med Jsoup

Den anbefalede måde at bruge Jsoup på er ved at inkludere den nødvendige Maven- eller Gradle-konfiguration eller ved manuelt at importere JAR-filen i dit projekt. Venligst tilføj Maven-afhængigheden for en glat funktion.

Jsoup Maven-afhængighed

<afhængighed>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</afhængighed>

Installer Jsoup-biblioteket via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

Parsing HTML-fil ved hjælp af Java API

En af de centrale funktioner i det open source Jsoup-bibliotek er dets evne til at analysere HTML-dokumenter inden for Java-applikationer. Biblioteket gør det muligt at udtrække data fra HTML-dokumenter ved hjælp af en URL, der peger på en webside, rå HTML-strenge eller direkte ved at indlæse en fil fra disken. For at analysere et HTML-dokument ved hjælp af Jsoup kan softwareudviklere benytte metoden Jsoup.parse(). Denne metode accepterer HTML-indholdet som en streng og returnerer et Document-objekt, der repræsenterer det analyserede HTML. Herfra kan udviklere navigere i DOM-træet og udtrække de ønskede elementer ved hjælp af vælgere eller traverseringsmetoder. Det følgende eksempel viser, hvordan man analyserer en webside til et DOM og vælger overskrifterne fra det ved hjælp af java-kommandoer.

Hvordan man parser en HTML-fil og udtrækker overskrifter fra den via Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Uddrag data fra HTML-fil ved hjælp af Java

Jsoup-biblioteket har inkluderet meget nyttige funktioner til at indlæse og udtrække data fra HTML-dokumenter inden for Java-applikationer. Biblioteket tilbyder intuitive metoder til at udtrække data fra HTML-elementer. Det understøtter tekstudtrækning, attributhentning og HTML-serialisering, hvilket giver udviklere de nødvendige værktøjer til at udtrække og manipulere data efter behov. Dette gør det lettere at integrere web scraping-funktionaliteter i Java-applikationer. Det følgende eksempel viser, hvordan programmører kan udtrække attributter, tekst og HTML fra elementer inden for Java-applikationer.

Hvordan man udtrækker attributter, tekst og HTML fra elementer via Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Rediger og manipuler HTML-filer via Java API

Det open source Jsoup-bibliotek giver softwareudviklere mulighed for at indlæse og ændre HTML-dokumenter uden besvær i deres egne Java-applikationer. Uanset om det er at tilføje, fjerne eller ændre elementer, tilbyder Jsoup et praktisk API til at manipulere HTML-strukturen. Denne funktion viser sig at være uvurderlig, når man skraber data og gemmer det i et ønsket format, eller når man bygger værktøjer, der programmatisk ændrer HTML-indhold.