API رایگان جاوا برای استخراج، تجزیه و پردازش HTML
کتابخانه جاوا متن باز برای بارگذاری، تجزیه، دریافت URLها، استخراج و دستکاری دادهها، با استفاده از بهترین روشهای DOM HTML5 و انتخابگرهای CSS.
Jsoup یک کتابخانه بسیار قدرتمند جاوا است که به توسعهدهندگان نرمافزار این امکان را میدهد که وظایف مرتبط با HTML را در داخل برنامههای جاوای خود مدیریت کنند. وقتی صحبت از وباسکرپینگ و تجزیه HTML در جاوا میشود، Jsoup به عنوان یک کتابخانه محبوب و قدرتمند ظاهر شده است. این کتابخانه یک روش راحت و شهودی برای تجزیه و استخراج دادهها از اسناد HTML، دستکاری DOM و پیمایش ساختار HTML به راحتی فراهم میکند. Jsoup یک پروژه متنباز است که تحت مجوز لیبرال MIT توزیع میشود. به عنوان یک کتابخانه جاوا، Jsoup بهطور یکپارچه با پروژههای موجود جاوا ادغام میشود و آن را به انتخابی ایدهآل برای توسعهدهندگان جاوا تبدیل میکند.
Jsoup یک کتابخانه رایگان جاوا است که به توسعهدهندگان نرمافزار این امکان را میدهد که دادهها را از اسناد HTML و XML استخراج و دستکاری کنند. این کتابخانه به عنوان یک پل مناسب بین جاوا و دنیای وباسکرپینگ عمل میکند و مجموعهای قوی از ویژگیها را برای دریافت، تجزیه، دستکاری و پیمایش محتوای HTML ارائه میدهد. چه نیاز به استخراج دادههای خاصی از یک صفحه وب داشته باشید، چه بخواهید چندین صفحه را وباسکرپ کنید یا ساختار اسناد HTML را تغییر دهید، Jsoup یک API کاربرپسند برای انجام این کارها فراهم میکند.
Jsoup یک API تمیز و شهودی ارائه میدهد که آن را برای مبتدیان دوستانه و سریع برای یادگیری میکند. با روشهای ساده برای تجزیه، دستکاری و پیمایش HTML، توسعهدهندگان میتوانند به سرعت دادههای وب را استخراج کنند. قابلیت گسترش آن به توسعهدهندگان نرمافزار این امکان را میدهد که عملکردهای سفارشی را بر روی این کتابخانه بسازند. این کتابخانه از ویژگیهای تعریفشده توسط کاربر، فیلترهای سفارشی و پیمایشگرهای سفارشی پشتیبانی میکند و به توسعهدهندگان نرمافزار این امکان را میدهد که کتابخانه را به نیازهای خاص خود تطبیق دهند. API شهودی آن، همراه با دامنه وسیعی از ویژگیها، آن را به انتخابی محبوب در میان توسعهدهندگان تبدیل کرده است. چه به استخراج داده نیاز داشته باشید، چه به دستکاری DOM، یا چه به مدیریت سناریوهای پیچیده HTML، Jsoup فرآیند را ساده کرده و راهحلهای قوی ارائه میدهد.
آغاز کار با Jsoup
روش پیشنهادی برای استفاده از Jsoup شامل اضافه کردن پیکربندی لازم Maven یا Gradle یا وارد کردن دستی فایل JAR به پروژه شما است. لطفاً وابستگی maven را برای کارکرد روان اضافه کنید.
وابستگی Maven Jsoup
<وابستگی>
<groupId>org.jsoup</groupId>
<artifactId>Jsoup</artifactId>
<version>1.16.1</version>
</dependency>
نصب کتابخانه Jsoup از طریق Gradle
// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
شما همچنین میتوانید آن را به صورت دستی نصب کنید؛ آخرین فایلهای انتشار را مستقیماً از مخزن GitHub دانلود کنید.
تحلیل فایل HTML با استفاده از API جاوا
یکی از قابلیتهای اصلی کتابخانه متنباز Jsoup توانایی آن در تجزیه اسناد HTML در برنامههای جاوا است. این کتابخانه اجازه میدهد تا دادهها را از اسناد HTML با استفاده از یک URL که به یک صفحه وب اشاره میکند، رشتههای HTML خام، یا بهطور مستقیم با بارگذاری یک فایل از دیسک استخراج کرد. برای تجزیه یک سند HTML با استفاده از Jsoup، توسعهدهندگان نرمافزار میتوانند از متد Jsoup.parse() استفاده کنند. این متد محتویات HTML را بهعنوان یک رشته میپذیرد و یک شیء Document را که نمایانگر HTML تجزیهشده است، برمیگرداند. از آنجا، توسعهدهندگان میتوانند درخت DOM را پیمایش کرده و عناصر مورد نظر را با استفاده از انتخابگرها یا روشهای پیمایش استخراج کنند. مثال زیر نشان میدهد که چگونه یک صفحه وب را به یک DOM تجزیه کرده و عناوین آن را با استفاده از دستورات جاوا انتخاب کنیم.
چگونه فایل HTML را تجزیه کنیم و عناوین را از طریق API جاوا استخراج کنیم؟
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
استخراج دادهها از فایل HTML با استفاده از جاوا
کتابخانه Jsoup توابع بسیار مفیدی را برای بارگذاری و استخراج دادهها از اسناد HTML در داخل برنامههای جاوا شامل شده است. این کتابخانه روشهای شهودی برای استخراج دادهها از عناصر HTML ارائه میدهد. این کتابخانه از استخراج متن، بازیابی ویژگیها و سریالسازی HTML پشتیبانی میکند و ابزارهای لازم را برای توسعهدهندگان فراهم میآورد تا دادهها را به دلخواه استخراج و دستکاری کنند. این امر ادغام قابلیتهای وباسکرپینگ را در برنامههای جاوا آسانتر میکند. مثال زیر نشان میدهد که چگونه برنامهنویسان میتوانند ویژگیها، متن و HTML را از عناصر داخل برنامههای جاوا استخراج کنند.
چگونه میتوان ویژگیها، متن و HTML را از عناصر از طریق API جاوا استخراج کرد؟
String html = "An example link.
";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""
String linkOuterH = link.outerHtml();
// "example"
String linkInnerH = link.html(); // "example"
ویرایش و دستکاری فایلهای HTML از طریق API جاوا
کتابخانه متنباز Jsoup به توسعهدهندگان نرمافزار این امکان را میدهد که بهراحتی اسناد HTML را در داخل برنامههای جاوا خود بارگذاری و ویرایش کنند. چه اضافه کردن، حذف کردن یا ویرایش عناصر باشد، Jsoup یک API مناسب برای دستکاری ساختار HTML ارائه میدهد. این ویژگی در زمان استخراج دادهها و ذخیرهسازی آنها در فرمت دلخواه یا هنگام ساخت ابزارهایی که محتوای HTML را بهطور برنامهنویسی ویرایش میکنند، بسیار ارزشمند است.