API رایگان جاوا برای استخراج، تجزیه و پردازش HTML

کتابخانه جاوا متن باز برای بارگذاری، تجزیه، دریافت URLها، استخراج و دستکاری داده‌ها، با استفاده از بهترین روش‌های DOM HTML5 و انتخاب‌گرهای CSS.

Jsoup یک کتابخانه بسیار قدرتمند جاوا است که به توسعه‌دهندگان نرم‌افزار این امکان را می‌دهد که وظایف مرتبط با HTML را در داخل برنامه‌های جاوای خود مدیریت کنند. وقتی صحبت از وب‌اسکرپینگ و تجزیه HTML در جاوا می‌شود، Jsoup به عنوان یک کتابخانه محبوب و قدرتمند ظاهر شده است. این کتابخانه یک روش راحت و شهودی برای تجزیه و استخراج داده‌ها از اسناد HTML، دستکاری DOM و پیمایش ساختار HTML به راحتی فراهم می‌کند. Jsoup یک پروژه متن‌باز است که تحت مجوز لیبرال MIT توزیع می‌شود. به عنوان یک کتابخانه جاوا، Jsoup به‌طور یکپارچه با پروژه‌های موجود جاوا ادغام می‌شود و آن را به انتخابی ایده‌آل برای توسعه‌دهندگان جاوا تبدیل می‌کند.

Jsoup یک کتابخانه رایگان جاوا است که به توسعه‌دهندگان نرم‌افزار این امکان را می‌دهد که داده‌ها را از اسناد HTML و XML استخراج و دستکاری کنند. این کتابخانه به عنوان یک پل مناسب بین جاوا و دنیای وب‌اسکرپینگ عمل می‌کند و مجموعه‌ای قوی از ویژگی‌ها را برای دریافت، تجزیه، دستکاری و پیمایش محتوای HTML ارائه می‌دهد. چه نیاز به استخراج داده‌های خاصی از یک صفحه وب داشته باشید، چه بخواهید چندین صفحه را وب‌اسکرپ کنید یا ساختار اسناد HTML را تغییر دهید، Jsoup یک API کاربرپسند برای انجام این کارها فراهم می‌کند.

Jsoup یک API تمیز و شهودی ارائه می‌دهد که آن را برای مبتدیان دوستانه و سریع برای یادگیری می‌کند. با روش‌های ساده برای تجزیه، دستکاری و پیمایش HTML، توسعه‌دهندگان می‌توانند به سرعت داده‌های وب را استخراج کنند. قابلیت گسترش آن به توسعه‌دهندگان نرم‌افزار این امکان را می‌دهد که عملکردهای سفارشی را بر روی این کتابخانه بسازند. این کتابخانه از ویژگی‌های تعریف‌شده توسط کاربر، فیلترهای سفارشی و پیمایش‌گرهای سفارشی پشتیبانی می‌کند و به توسعه‌دهندگان نرم‌افزار این امکان را می‌دهد که کتابخانه را به نیازهای خاص خود تطبیق دهند. API شهودی آن، همراه با دامنه وسیعی از ویژگی‌ها، آن را به انتخابی محبوب در میان توسعه‌دهندگان تبدیل کرده است. چه به استخراج داده نیاز داشته باشید، چه به دستکاری DOM، یا چه به مدیریت سناریوهای پیچیده HTML، Jsoup فرآیند را ساده کرده و راه‌حل‌های قوی ارائه می‌دهد.

نگاهی به اجمالی

مروری بر ویژگی‌های Jsoup.

مروری بر ویژگی‌ها

جمع‌آوری اطلاعات وب
فایل‌های HTML را دستکاری کنید
استخراج تصاویر از HTML
HTML باز
خواندن HTML
تحلیل HTML
رندرینگ HTML
نمایشگر HTML
HTML به PDF
استخراج فهرست مطالب
متن ساده را استخراج کنید

Jsoup

Jsoup از فرمت فایل HTML و همچنین فرمت‌های استاندارد صنعتی برای صادرات پشتیبانی می‌کند.

خواننده

HTML

نویسنده

TXT, HTML , PDF

Jsoup

استقلال پلتفرم

Jsoup فقط به زمان اجرای جاوا نیاز دارد.

جاوا ۸ و بالاتر.

Jsoup

آغاز کار با Jsoup

روش پیشنهادی برای استفاده از Jsoup شامل اضافه کردن پیکربندی لازم Maven یا Gradle یا وارد کردن دستی فایل JAR به پروژه شما است. لطفاً وابستگی maven را برای کارکرد روان اضافه کنید.

وابستگی Maven Jsoup

<وابستگی>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

نصب کتابخانه Jsoup از طریق Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

شما همچنین می‌توانید آن را به صورت دستی نصب کنید؛ آخرین فایل‌های انتشار را مستقیماً از مخزن GitHub دانلود کنید.

تحلیل فایل HTML با استفاده از API جاوا

یکی از قابلیت‌های اصلی کتابخانه متن‌باز Jsoup توانایی آن در تجزیه اسناد HTML در برنامه‌های جاوا است. این کتابخانه اجازه می‌دهد تا داده‌ها را از اسناد HTML با استفاده از یک URL که به یک صفحه وب اشاره می‌کند، رشته‌های HTML خام، یا به‌طور مستقیم با بارگذاری یک فایل از دیسک استخراج کرد. برای تجزیه یک سند HTML با استفاده از Jsoup، توسعه‌دهندگان نرم‌افزار می‌توانند از متد Jsoup.parse() استفاده کنند. این متد محتویات HTML را به‌عنوان یک رشته می‌پذیرد و یک شیء Document را که نمایانگر HTML تجزیه‌شده است، برمی‌گرداند. از آنجا، توسعه‌دهندگان می‌توانند درخت DOM را پیمایش کرده و عناصر مورد نظر را با استفاده از انتخاب‌گرها یا روش‌های پیمایش استخراج کنند. مثال زیر نشان می‌دهد که چگونه یک صفحه وب را به یک DOM تجزیه کرده و عناوین آن را با استفاده از دستورات جاوا انتخاب کنیم.

چگونه فایل HTML را تجزیه کنیم و عناوین را از طریق API جاوا استخراج کنیم؟

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

استخراج داده‌ها از فایل HTML با استفاده از جاوا

کتابخانه Jsoup توابع بسیار مفیدی را برای بارگذاری و استخراج داده‌ها از اسناد HTML در داخل برنامه‌های جاوا شامل شده است. این کتابخانه روش‌های شهودی برای استخراج داده‌ها از عناصر HTML ارائه می‌دهد. این کتابخانه از استخراج متن، بازیابی ویژگی‌ها و سریال‌سازی HTML پشتیبانی می‌کند و ابزارهای لازم را برای توسعه‌دهندگان فراهم می‌آورد تا داده‌ها را به دلخواه استخراج و دستکاری کنند. این امر ادغام قابلیت‌های وب‌اسکرپینگ را در برنامه‌های جاوا آسان‌تر می‌کند. مثال زیر نشان می‌دهد که چگونه برنامه‌نویسان می‌توانند ویژگی‌ها، متن و HTML را از عناصر داخل برنامه‌های جاوا استخراج کنند.

چگونه می‌توان ویژگی‌ها، متن و HTML را از عناصر از طریق API جاوا استخراج کرد؟

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

ویرایش و دستکاری فایل‌های HTML از طریق API جاوا

کتابخانه متن‌باز Jsoup به توسعه‌دهندگان نرم‌افزار این امکان را می‌دهد که به‌راحتی اسناد HTML را در داخل برنامه‌های جاوا خود بارگذاری و ویرایش کنند. چه اضافه کردن، حذف کردن یا ویرایش عناصر باشد، Jsoup یک API مناسب برای دستکاری ساختار HTML ارائه می‌دهد. این ویژگی در زمان استخراج داده‌ها و ذخیره‌سازی آن‌ها در فرمت دلخواه یا هنگام ساخت ابزارهایی که محتوای HTML را به‌طور برنامه‌نویسی ویرایش می‌کنند، بسیار ارزشمند است.