1. منتجات
  2.   HTML
  3.   Java
  4.   Jsoup
 
  

واجهة برمجة تطبيقات جافا مجانية لاستخراج وتحليل ومعالجة HTML

مكتبة جافا مفتوحة المصدر لتحميل وتحليل واسترجاع عناوين URL، واستخراج وتعديل البيانات، باستخدام أفضل طرق DOM في HTML5 ومحددات CSS.

Jsoup هي مكتبة جافا قوية جدًا تمكن مطوري البرمجيات من التعامل مع المهام المتعلقة بـ HTML داخل تطبيقاتهم الخاصة بلغة جافا. عندما يتعلق الأمر بجمع البيانات من الويب وتحليل HTML في جافا، أصبحت Jsoup مكتبة شائعة وقوية. توفر طريقة مريحة وبديهية لتحليل واستخراج البيانات من مستندات HTML، والتلاعب بشجرة DOM، والتنقل في هيكل HTML بسهولة. Jsoup هو مشروع مفتوح المصدر موزع بموجب رخصة MIT الليبرالية. كمكتبة جافا، تتكامل Jsoup بسلاسة مع المشاريع الحالية بلغة جافا، مما يجعلها خيارًا مثاليًا لمطوري جافا.

Jsoup هي مكتبة جافا مجانية للاستخدام تمكن مطوري البرمجيات من استخراج ومعالجة البيانات من مستندات HTML و XML. تعمل كجسر ملائم بين جافا وعالم استخراج البيانات من الويب، حيث تقدم مجموعة قوية من الميزات لجلب وتحليل ومعالجة والتنقل في محتوى HTML. سواء كنت بحاجة إلى استخراج بيانات محددة من صفحة ويب، أو استخراج بيانات من صفحات متعددة، أو تعديل هيكل مستندات HTML، فإن Jsoup توفر واجهة برمجة تطبيقات سهلة الاستخدام لإنجاز هذه المهام.

يوفر Jsoup واجهة برمجة تطبيقات نظيفة وبديهية تجعلها سهلة الاستخدام للمبتدئين وسريعة التعلم. مع طرق بسيطة لتحليل وتعديل والتنقل في HTML، يمكن للمطورين البدء في جمع بيانات الويب في وقت قصير. تسمح قابليته للتوسع لمطوري البرمجيات ببناء وظائف مخصصة فوق المكتبة. يدعم سمات محددة من قبل المستخدم، ومرشحات مخصصة، ومتنقلين مخصصين، مما يمكّن مطوري البرمجيات من تخصيص المكتبة وفقًا لاحتياجاتهم الخاصة. تجعل واجهته البديهية، إلى جانب مجموعة واسعة من الميزات، خيارًا شائعًا بين المطورين. سواء كنت بحاجة لاستخراج البيانات، أو تعديل DOM، أو التعامل مع سيناريوهات HTML المعقدة، فإن Jsoup يبسط العملية ويوفر حلولاً قوية.

Previous Next

البدء مع Jsoup

الطريقة الموصى بها لاستخدام Jsoup هي من خلال تضمين تكوين Maven أو Gradle الضروري أو عن طريق استيراد ملف JAR يدويًا إلى مشروعك. يرجى إضافة اعتماد Maven لضمان العمل بسلاسة.

اعتماد Maven لـ Jsoup

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Install Jsoup Library via Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

You can also install it manually; download the latest release files directly from GitHub repository.

تحليل ملف HTML باستخدام واجهة برمجة تطبيقات Java

إحدى الوظائف الأساسية لمكتبة Jsoup مفتوحة المصدر هي قدرتها على تحليل مستندات HTML داخل تطبيقات Java. تتيح المكتبة استخراج البيانات من مستندات HTML باستخدام عنوان URL يشير إلى صفحة ويب، أو سلاسل HTML الخام، أو مباشرة عن طريق تحميل ملف من القرص. لتحليل مستند HTML باستخدام Jsoup، يمكن لمطوري البرمجيات استخدام طريقة Jsoup.parse(). تقبل هذه الطريقة محتوى HTML كسلسلة وتعيد كائن Document يمثل HTML الذي تم تحليله. من هناك، يمكن للمطورين التنقل في شجرة DOM واستخراج العناصر المطلوبة باستخدام المحددات أو طرق التنقل. يوضح المثال التالي كيفية تحليل صفحة ويب إلى DOM، واختيار العناوين منها باستخدام أوامر Java.

كيف تقوم بتحليل ملف HTML واستخراج العناوين منه عبر واجهة برمجة تطبيقات Java؟

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

استخراج البيانات من ملف HTML باستخدام جافا

تتضمن مكتبة Jsoup وظائف مفيدة جدًا لتحميل واستخراج البيانات من مستندات HTML داخل تطبيقات Java. تقدم المكتبة طرقًا بديهية لاستخراج البيانات من عناصر HTML. تدعم استخراج النصوص، واسترجاع السمات، وتسلسل HTML، مما يوفر للمطورين الأدوات اللازمة لاستخراج البيانات ومعالجتها حسب الحاجة. هذا يجعل من الأسهل دمج وظائف استخراج البيانات من الويب في تطبيقات Java. يوضح المثال التالي كيف يمكن للمبرمجين استخراج السمات والنصوص وHTML من العناصر داخل تطبيقات Java.

كيفية استخراج السمات والنصوص وHTML من العناصر عبر واجهة برمجة التطبيقات Java؟

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

تحرير ومعالجة ملفات HTML عبر واجهة برمجة التطبيقات Java

تسمح مكتبة Jsoup مفتوحة المصدر لمطوري البرمجيات بتحميل وتعديل مستندات HTML بسهولة داخل تطبيقاتهم الخاصة بلغة Java. سواء كان ذلك بإضافة أو إزالة أو تعديل العناصر، توفر Jsoup واجهة برمجة تطبيقات مريحة للتلاعب بهيكل HTML. تثبت هذه الميزة أنها لا تقدر بثمن عند استخراج البيانات وحفظها في تنسيق مرغوب أو عند بناء أدوات تعدل محتوى HTML برمجياً.

 عربي