Безкоштовний Java API для витягування, парсингу та обробки HTML

Jsoup - це дуже потужна бібліотека Java, яка дозволяє розробникам програмного забезпечення виконувати завдання, пов'язані з HTML, у своїх власних Java-додатках. Коли мова йде про веб-скрапінг та парсинг HTML у Java, Jsoup став популярною та потужною бібліотекою. Вона надає зручний та інтуїтивно зрозумілий спосіб парсити та витягувати дані з HTML-документів, маніпулювати DOM та легко пересуватися по структурі HTML. Jsoup є проектом з відкритим кодом, розповсюдженим під ліберальною ліцензією MIT. Як бібліотека Java, Jsoup безперешкодно інтегрується з існуючими Java-проектами, що робить її ідеальним вибором для розробників Java.

Jsoup - це безкоштовна бібліотека Java, яка дозволяє розробникам програмного забезпечення витягувати та маніпулювати даними з HTML та XML документів. Вона виступає зручним мостом між Java та світом веб-скрапінгу, пропонуючи потужний набір функцій для отримання, парсингу, маніпуляції та обходу HTML контенту. Чи потрібно вам витягти конкретні дані з веб-сторінки, скрапити кілька сторінок або змінити структуру HTML документів, Jsoup надає зручний API для виконання цих завдань.

Jsoup надає чистий та інтуїтивно зрозумілий API, що робить його дружнім для початківців і швидким у вивченні. Завдяки простим методам для парсингу, маніпулювання та обходу HTML, розробники можуть почати збирати веб-дані за короткий час. Його розширюваність дозволяє програмістам створювати власну функціональність на основі бібліотеки. Він підтримує атрибути, визначені користувачем, користувацькі фільтри та користувацькі обходи, що дозволяє програмістам налаштовувати бібліотеку під свої конкретні потреби. Його інтуїтивно зрозумілий API, разом з широким спектром функцій, робить його популярним вибором серед розробників. Незалежно від того, чи потрібно вам витягувати дані, маніпулювати DOM або обробляти складні HTML-сценарії, Jsoup спрощує процес і надає надійні рішення.

На Перший Погляд

Огляд можливостей Jsoup.

Огляд функцій

Веб-скрапінг
Маніпулювати HTML файлами
Витягти зображення з HTML
Відкрити HTML
Читати HTML
Парсити HTML
Відображення HTML
Переглядач HTML
HTML в PDF
Витягти зміст
Витягти простий текст

Jsoup

Jsoup підтримує формат HTML, а також стандартизовані формати для експорту.

Читач

HTML

Автор

TXT, HTML , PDF

Jsoup

Незалежність платформи

Jsoup вимагає лише середовище виконання Java.

Java 8 та вище.

Jsoup

Початок роботи з Jsoup

Рекомендований спосіб використання Jsoup - це включення необхідної конфігурації Maven або Gradle або ручне імпортування JAR-файлу у ваш проект. Будь ласка, додайте залежність Maven для безперебійної роботи.

Залежність Maven для Jsoup

<залежність>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</залежність>

Встановлення бібліотеки Jsoup через Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

Ви також можете встановити його вручну; завантажте останні файли випуску безпосередньо з репозиторію GitHub.

Парсинг HTML файлу за допомогою Java API

Однією з основних функцій бібліотеки з відкритим кодом Jsoup є її здатність аналізувати HTML-документи в Java-додатках. Бібліотека дозволяє витягувати дані з HTML-документів, використовуючи URL, що вказує на веб-сторінку, сирі HTML-рядки або безпосередньо завантажуючи файл з диска. Щоб проаналізувати HTML-документ за допомогою Jsoup, розробники програмного забезпечення можуть використовувати метод Jsoup.parse(). Цей метод приймає HTML-контент у вигляді рядка і повертає об'єкт Document, що представляє проаналізований HTML. Звідти розробники можуть навігувати по дереву DOM і витягувати потрібні елементи, використовуючи селектори або методи обходу. Наступний приклад показує, як проаналізувати веб-сторінку в DOM і вибрати заголовки з неї, використовуючи команди java.

Як розібрати HTML файл та витягти заголовки з нього за допомогою Java API?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Витяг даних з HTML-файлу за допомогою Java

Бібліотека Jsoup включає дуже корисні функції для завантаження та витягування даних з HTML-документів у Java-додатках. Бібліотека пропонує інтуїтивно зрозумілі методи для витягування даних з HTML-елементів. Вона підтримує витягування тексту, отримання атрибутів та серіалізацію HTML, надаючи розробникам необхідні інструменти для витягування та маніпулювання даними за потреби. Це спрощує інтеграцію функціональності веб-скрапінгу в Java-додатки. Наступний приклад показує, як програмісти можуть витягувати атрибути, текст та HTML з елементів у Java-додатках.

Як витягнути атрибути, текст та HTML з елементів за допомогою Java API?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Редагування та маніпулювання HTML-файлами через Java API

Бібліотека з відкритим вихідним кодом Jsoup дозволяє розробникам програмного забезпечення легко завантажувати та змінювати HTML-документи всередині своїх власних Java-додатків. Незалежно від того, чи потрібно додати, видалити або змінити елементи, Jsoup надає зручний API для маніпуляції HTML-структурою. Ця функція є безцінною при зборі даних та збереженні їх у потрібному форматі або при створенні інструментів, які програмно змінюють HTML-контент.