API Java gratuit pentru extragerea, analizarea și procesarea HTML

Bibliotecă Java Open Source pentru încărcarea, analizarea, obținerea URL-urilor, extragerea și manipularea datelor, folosind cele mai bune metode DOM HTML5 și selecții CSS.

Jsoup este o bibliotecă Java foarte puternică care permite dezvoltatorilor de software să gestioneze sarcini legate de HTML în cadrul propriilor aplicații Java. Când vine vorba de web scraping și parsarea HTML în Java, Jsoup a devenit o bibliotecă populară și puternică. Oferă o modalitate convenabilă și intuitivă de a analiza și extrage date din documente HTML, de a manipula DOM-ul și de a naviga cu ușurință în structura HTML. Jsoup este un proiect open source distribuit sub licența liberală MIT. Ca bibliotecă Java, Jsoup se integrează perfect în proiectele Java existente, făcându-l o alegere ideală pentru dezvoltatorii Java.

Jsoup este o bibliotecă Java gratuită care permite dezvoltatorilor de software să extragă și să manipuleze date din documente HTML și XML. Acționează ca un pod convenabil între Java și lumea scraping-ului web, oferind un set robust de caracteristici pentru obținerea, analizarea, manipularea și parcurgerea conținutului HTML. Indiferent dacă trebuie să extrageți date specifice dintr-o pagină web, să faceți scraping pe mai multe pagini sau să modificați structura documentelor HTML, Jsoup oferă o API prietenoasă pentru a realiza aceste sarcini.

Jsoup oferă o API curată și intuitivă care o face prietenoasă pentru începători și ușor de învățat. Cu metode simple pentru analizarea, manipularea și parcurgerea HTML-ului, dezvoltatorii pot începe să extragă date de pe web în cel mai scurt timp. Extensibilitatea sa permite dezvoltatorilor de software să construiască funcționalități personalizate pe baza bibliotecii. Suportă atribute definite de utilizator, filtre personalizate și parcurgători personalizați, permițând dezvoltatorilor de software să adapteze biblioteca la nevoile lor specifice. API-ul său intuitiv, împreună cu o gamă largă de caracteristici, o face o alegere populară printre dezvoltatori. Indiferent dacă trebuie să extrageți date, să manipulați DOM-ul sau să gestionați scenarii HTML complexe, Jsoup simplifică procesul și oferă soluții robuste.

Pe scurt

O prezentare generală a caracteristicilor Jsoup.

Prezentare generală a caracteristicilor

Web Scraping
Manipulați fișiere HTML
Extrage imagini din HTML
Deschide HTML
Citeste HTML
Analiza HTML
Redare HTML
Vizualizator HTML
HTML la PDF
Extrage TOC
Extrageți text simplu

Jsoup

Jsoup suportă formatul de fișier HTML, precum și formatele standard din industrie pentru export.

Cititor

HTML

Scriitor

TXT, HTML, PDF

Jsoup

Independența platformei

Jsoup necesită doar runtime Java.

Java 8 și versiuni ulterioare.

Jsoup

Începerea cu Jsoup

Modul recomandat de utilizare a Jsoup este prin includerea configurației necesare Maven sau Gradle sau prin importarea manuală a fișierului JAR în proiectul dumneavoastră. Vă rugăm să adăugați dependența maven pentru o funcționare lină.

Dependința Maven Jsoup

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  1.16.1
</dependency>

Instalați biblioteca Jsoup prin Gradle

// biblioteca de analiză HTML jsoup @ https://jsoup.org/
implementare 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn instalare

Puteți, de asemenea, să-l instalați manual; descărcați fișierele celei mai recente versiuni direct de pe GitHub repository.

Analiza fișierului HTML folosind API-ul Java

Una dintre funcționalitățile de bază ale bibliotecii open source Jsoup este capacitatea sa de a analiza documente HTML în aplicații Java. Biblioteca permite extragerea de date din documente HTML folosind un URL care indică o pagină web, șiruri HTML brute sau direct prin încărcarea unui fișier de pe disc. Pentru a analiza un document HTML folosind Jsoup, dezvoltatorii de software pot utiliza metoda Jsoup.parse(). Această metodă acceptă conținutul HTML ca un șir și returnează un obiect Document care reprezintă HTML-ul analizat. De acolo, dezvoltatorii pot naviga în arborele DOM și pot extrage elementele dorite folosind selecții sau metode de traversare. Exemplul următor arată cum să analizezi o pagină web într-un DOM și să selectezi titlurile din aceasta folosind comenzi Java.

Cum să analizezi un fișier HTML și să extragi titlurile din acesta prin API-ul Java?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Extrageți date din fișier HTML folosind Java

Biblioteca Jsoup a inclus funcții foarte utile pentru a încărca și a extrage date din documente HTML în aplicații Java. Biblioteca oferă metode intuitive pentru a extrage date din elementele HTML. Suportă extragerea textului, recuperarea atributelor și serializarea HTML, oferind dezvoltatorilor instrumentele necesare pentru a extrage și a manipula datele după cum este necesar. Acest lucru facilitează integrarea funcționalităților de web scraping în aplicațiile Java. Exemplul următor arată cum programatorii pot extrage atribute, text și HTML din elemente în aplicațiile Java.

Cum să extragi atribute, text și HTML din elemente prin API-ul Java?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Editați și Manipulați Fișiere HTML prin API Java

Biblioteca open source Jsoup permite dezvoltatorilor de software să încarce și să modifice documente HTML fără efort în cadrul propriilor aplicații Java. Fie că este vorba de adăugarea, eliminarea sau modificarea elementelor, Jsoup oferă o API convenabilă pentru a manipula structura HTML. Această caracteristică se dovedește a fi extrem de valoroasă atunci când se extrag date și se salvează într-un format dorit sau când se construiesc instrumente care modifică conținutul HTML programatic.