Безплатен Java API за извличане, парсване и обработка на HTML

Jsoup е много мощна Java библиотека, която позволява на софтуерните разработчици да се справят с HTML свързани задачи в собствените си Java приложения. Когато става въпрос за уеб скрейпинг и HTML парсинг в Java, Jsoup се е утвърдил като популярна и мощна библиотека. Тя предоставя удобен и интуитивен начин за парсване и извличане на данни от HTML документи, манипулиране на DOM и лесно преминаване през HTML структурата. Jsoup е проект с отворен код, разпространяван под либералната MIT лицензия. Като Java библиотека, Jsoup безпроблемно се интегрира с съществуващи Java проекти, което го прави идеален избор за Java разработчици.

Jsoup е безплатна Java библиотека, която позволява на софтуерните разработчици да извличат и манипулират данни от HTML и XML документи. Тя действа като удобен мост между Java и света на уеб скрейпинга, предлагайки мощен набор от функции за извличане, парсване, манипулиране и обход на HTML съдържание. Независимо дали трябва да извлечете специфични данни от уеб страница, да скрейпнете множество страници или да модифицирате структурата на HTML документи, Jsoup предоставя удобен API за изпълнение на тези задачи.

Jsoup предоставя чист и интуитивен API, който го прави подходящ за начинаещи и бърз за усвояване. С простите методи за парсинг, манипулиране и обход на HTML, разработчиците могат да започнат да извличат уеб данни за нула време. Неговата разширяемост позволява на софтуерните разработчици да изграждат персонализирана функционалност върху библиотеката. Той поддържа потребителски дефинирани атрибути, персонализирани филтри и персонализирани обходи, позволявайки на софтуерните разработчици да адаптират библиотеката към специфичните си нужди. Неговият интуитивен API, в комбинация с широк набор от функции, го прави популярен избор сред разработчиците. Независимо дали трябва да извлечете данни, манипулирате DOM или да се справите със сложни HTML сценарии, Jsoup опростява процеса и предоставя надеждни решения.

На пръв поглед

Преглед на функциите на Jsoup.

Преглед на характеристиките

Уеб скрейпинг
Манипулирайте HTML файлове
Извличане на изображения от HTML
Отворете HTML
Прочетете HTML
Парсване на HTML
HTML рендиране
HTML Прегледник
HTML към PDF
Извлечи TOC
Извлечете обикновен текст

Jsoup

Jsoup поддържа HTML файлов формат, както и индустриално стандартни формати за експортиране.

Читател

HTML

Писател

TXT, HTML , PDF

Jsoup

Независимост на платформата

Jsoup изисква само Java изпълнителна среда.

Java 8 и по-нови версии.

Jsoup

Започване с Jsoup

Препоръчителният начин за използване на Jsoup е чрез включване на необходимата конфигурация за Maven или Gradle или чрез ръчно импортиране на JAR файла в проекта ви. Моля, добавете зависимостта на maven за безпроблемна работа.

Jsoup Maven зависимост

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

Парсинг на HTML файл с помощта на Java API

Една от основните функционалности на библиотеката с отворен код Jsoup е способността ѝ да парсва HTML документи в Java приложения. Библиотеката позволява извличането на данни от HTML документи, използвайки URL адрес, сочещ към уеб страница, сурови HTML низове или директно чрез зареждане на файл от диска. За да парсват HTML документ с помощта на Jsoup, софтуерните разработчици могат да използват метода Jsoup.parse(). Този метод приема HTML съдържание като низ и връща обект Document, представляващ парснатия HTML. Оттам разработчиците могат да навигират в DOM дървото и да извлекат желаните елементи, използвайки селектори или методи за обход. Следващият пример показва как да парсвате уеб страница в DOM и да изберете заглавията от нея, използвайки Java команди.

Как да парсите HTML файл и да извлечете заглавия от него чрез Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Извличане на данни от HTML файл с помощта на Java

Библиотеката Jsoup включва много полезни функции за зареждане и извличане на данни от HTML документи в Java приложения. Библиотеката предлага интуитивни методи за извличане на данни от HTML елементи. Тя поддържа извличане на текст, получаване на атрибути и сериализация на HTML, предоставяйки на разработчиците необходимите инструменти за извличане и манипулиране на данни, както е необходимо. Това улеснява интегрирането на функционалности за уеб скрейпинг в Java приложения. Следният пример показва как програмистите могат да извлекат атрибути, текст и HTML от елементи в Java приложения.

Как да извлечем атрибути, текст и HTML от елементи чрез Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Редактиране и манипулиране на HTML файлове чрез Java API

Отворената библиотека Jsoup позволява на софтуерните разработчици да зареждат и модифицират HTML документи без усилие в собствените си Java приложения. Независимо дали става въпрос за добавяне, премахване или модифициране на елементи, Jsoup предоставя удобен API за манипулиране на HTML структурата. Тази функция се оказва безценна при извличане на данни и запазването им в желан формат или при изграждане на инструменти, които програмирано модифицират HTML съдържание.