HTML-i çıxarmaq, təhlil etmək və işlətmək üçün Pulsuz Java API
Məlumat yükləmək, təhlil etmək, URL-ləri əldə etmək, çıxarmaq və manipulyasiya etmək üçün HTML5 DOM metodlarının və CSS seçicilərinin ən yaxşısından istifadə edən Açıq Mənbə Java Pibrary.
Jsoup, proqram təminatı inkişaf etdiricilərinin öz Java tətbiqləri daxilində HTML ilə bağlı vəzifələri yerinə yetirməyə imkan verən çox güclü bir Java kitabxanasıdır. Veb scraping və HTML parsing məsələlərində Jsoup, populyar və güclü bir kitabxana kimi ortaya çıxmışdır. O, HTML sənədlərindən məlumatları ayırmaq, DOM-u manipulyasiya etmək və HTML strukturunu asanlıqla gəzmək üçün rahat və intuitiv bir yol təqdim edir. Jsoup, liberal MIT lisenziyası altında paylanılan açıq mənbə layihəsidir. Java kitabxanası olaraq, Jsoup mövcud Java layihələri ilə problemsiz inteqrasiya olunur, bu da onu Java inkişaf etdiriciləri üçün ideal seçim edir.
Jsoup, HTML və XML sənədlərindən məlumat çıxarmaq və manipulyasiya etmək üçün proqram təminatı inkişaf etdiricilərinə imkan verən pulsuz Java kitabxanasıdır. O, Java ilə veb scraping dünyası arasında rahat bir körpü rolunu oynayır və HTML məzmununu əldə etmək, təhlil etmək, manipulyasiya etmək və gəzmək üçün güclü xüsusiyyətlər təqdim edir. İstər veb səhifədən spesifik məlumat çıxarmaq, istərsə də bir neçə səhifəni scraping etmək, ya da HTML sənədlərinin strukturunu dəyişdirmək lazım olsun, Jsoup bu tapşırıqları yerinə yetirmək üçün istifadəçi dostu API təqdim edir.
Jsoup, yeni başlayanlar üçün dostluq edən və sürətlə öyrənilən təmiz və intuitiv bir API təqdim edir. HTML-i parçalayıb, manipulyasiya edib və gəzmək üçün sadə metodlarla, inkişaf etdiricilər veb məlumatlarını tez bir zamanda əldə etməyə başlaya bilərlər. Onun genişləndirilə bilənliyi proqram təminatı inkişaf etdiricilərinə kitabxananın üzərində xüsusi funksionallıq yaratmağa imkan tanıyır. İstifadəçi tərəfindən müəyyən edilmiş atributları, xüsusi filtrleri və xüsusi gəzmələri dəstəkləyir, bu da proqram təminatı inkişaf etdiricilərinə kitabxananı öz spesifik tələblərinə uyğunlaşdırmağa imkan verir. Onun intuitiv API-si, geniş xüsusiyyətlər spektri ilə birləşərək, inkişaf etdiricilər arasında populyar bir seçim edir. Məlumat çıxarmaq, DOM-u manipulyasiya etmək və ya mürəkkəb HTML ssenariləri ilə məşğul olmaq lazım olsa, Jsoup prosesi sadələşdirir və güclü həllər təqdim edir.
Jsoup ilə Başlamaq
Jsoup-dan istifadə etməyin tövsiyə olunan yolu, lazım olan Maven və ya Gradle konfiqurasiyasını daxil etməkdir və ya JAR faylını layihənizə əl ilə idxal etməkdir. Zəhmət olmasa, problemsiz işləmək üçün maven asılılığını əlavə edin.
Jsoup Maven Asılılığı
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>Jsoup</artifactId>
1.16.1
</asılılıq>
Jsoup Kitabxanasını Gradle vasitəsilə quraşdırın
// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
You can also install it manually; download the latest release files directly from GitHub repository.
Java API istifadə edərək HTML Faylını Parslamaq
Açıq mənbə Jsoup kitabxanasının əsas funksionallıqlarından biri Java tətbiqləri içində HTML sənədlərini təhlil etmək qabiliyyətidir. Kitabxana, veb səhifəyə işarə edən bir URL, xam HTML sətirləri və ya bir faylı diskdən yükləməklə HTML sənədlərindən məlumat çıxarmağa imkan tanıyır. Jsoup istifadə edərək HTML sənədini təhlil etmək üçün proqram təminatı inkişaf etdiriciləri Jsoup.parse() metodundan istifadə edə bilərlər. Bu metod HTML məzmununu bir sətir kimi qəbul edir və təhlil edilmiş HTML-i təmsil edən bir Document obyekti qaytarır. Buradan inkişaf etdiricilər DOM ağacında naviqasiya edə və seçicilər və ya gəzinti metodları istifadə edərək istədikləri elementləri çıxara bilərlər. Aşağıdakı nümunə, bir veb səhifəsini DOM-a necə təhlil etmək və ondan başlıqları seçmək üçün java əmrlərindən istifadə etməyi göstərir.
HTML Faylını Necə Pars etmək və Java API vasitəsilə Başlıqları Çıxarmaq olar?
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
HTML Faylından Məlumat Çıxarmaq üçün Java
Jsoup kitabxanası Java tətbiqləri daxilində HTML sənədlərindən məlumat yükləmək və çıxarmaq üçün çox faydalı funksiyalar təqdim edir. Kitabxana HTML elementlərindən məlumat çıxarmaq üçün intuitiv metodlar təklif edir. O, mətn çıxarma, atribut əldə etmə və HTML seriyalaşdırma dəstəkləyir, inkişaf etdiricilərə lazım olan məlumatları çıxarmaq və manipulyasiya etmək üçün zəruri alətləri təqdim edir. Bu, veb scraping funksionallıqlarını Java tətbiqlərinə inteqrasiya etməyi asanlaşdırır. Aşağıdakı nümunə proqramçıların Java tətbiqləri daxilində elementlərdən atributları, mətni və HTML-i necə çıxara biləcəyini göstərir.
Elementlərdən Java API vasitəsilə Atributları, Mətni və HTML-i necə çıxarmaq olar?
String html = "An example link.
";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""
String linkOuterH = link.outerHtml();
// "example"
String linkInnerH = link.html(); // "example"
HTML Fayllarını Java API vasitəsilə Redaktə Et və İdarə Et
Açıq mənbə Jsoup kitabxanası proqram təminatı inkişaf etdiricilərinə HTML sənədlərini öz Java tətbiqlərində asanlıqla yükləməyə və dəyişdirməyə imkan tanıyır. İstər elementləri əlavə etmək, istər silmək, istərsə də dəyişdirmək olsun, Jsoup HTML strukturunu manipulyasiya etmək üçün rahat bir API təqdim edir. Bu xüsusiyyət, məlumatları çıxarmaq və istənilən formatda saxlamaq və ya HTML məzmununu proqramatik olaraq dəyişdirən alətlər yaratmaq zamanı qiymətli olur.