1. מוצרים
  2.   HTML
  3.   Java
  4.   Jsoup
 
  

API ג'אווה חינמית לחילוץ, ניתוח ועיבוד HTML

ספריית Java קוד פתוח לטעינה, ניתוח, חיפוש כתובות URL, חילוץ ומניפולציה של נתונים, תוך שימוש בטכניקות הטובות ביותר של שיטות DOM ב-HTML5 ובחירות CSS.

Jsoup היא ספריית Java מאוד חזקה המאפשרת למפתחים לטפל במשימות הקשורות ל-HTML בתוך היישומים שלהם ב-Java. כאשר מדובר על גרידת אתרים וניתוח HTML ב-Java, Jsoup הפכה לספרייה פופולרית וחזקה. היא מספקת דרך נוחה ואינטואיטיבית לנתח ולהוציא נתונים ממסמכי HTML, למניפולציה של ה-DOM, ולנווט במבנה ה-HTML בקלות. Jsoup הוא פרויקט קוד פתוח המופץ תחת רישיון MIT הליברלי. כספריית Java, Jsoup משתלבת בצורה חלקה עם פרויקטי Java קיימים, מה שהופך אותה לבחירה אידיאלית עבור מפתחי Java.

Jsoup היא ספריית Java חינמית המאפשרת למפתחים לחלץ ולשנות נתונים מתוך מסמכי HTML ו-XML. היא פועלת כגשר נוח בין Java לעולם של גריסת אתרים, ומציעה סט חזק של תכונות להורדה, ניתוח, שינוי וניווט בתוכן HTML. בין אם אתה צריך לחלץ נתונים ספציפיים מעמוד אינטרנט, לגרוס מספר עמודים, או לשנות את המבנה של מסמכי HTML, Jsoup מספקת API ידידותי למשתמש כדי להשיג את המשימות הללו.

Jsoup מספקת API נקי ואינטואיטיבי שהופך אותה לידידותית למתחילים וללימוד מהיר. עם שיטות פשוטות לניתוח, מניפולציה וניווט ב-HTML, מפתחים יכולים להתחיל לגרד נתוני אינטרנט במהירות. יכולת ההרחבה שלה מאפשרת למפתחים לבנות פונקציות מותאמות על גבי הספרייה. היא תומכת באטריבוטים שהוגדרו על ידי המשתמש, פילטרים מותאמים וניווטים מותאמים, מה שמאפשר למפתחים להתאים את הספרייה לצרכים הספציפיים שלהם. ה-API האינטואיטיבי שלה, בשילוב עם מגוון רחב של תכונות, עושה אותה לבחירה פופולרית בקרב מפתחים. בין אם אתה צריך לחלץ נתונים, למניפולציה של ה-DOM, או להתמודד עם תרחישי HTML מורכבים, Jsoup מפשטת את התהליך ומספקת פתרונות חזקים.

Previous Next

התחלת עבודה עם Jsoup

הדרך המומלצת להשתמש ב-Jsoup היא על ידי הכללת הקונפיגורציה הנדרשת של Maven או Gradle או על ידי ייבוא ידני של קובץ ה-JAR לפרויקט שלך. אנא הוסף את התלות של Maven לעבודה חלקה.

תלות Maven של Jsoup

<תלות>
  
  <groupId>ארגון.jsoup</groupId>
  <artifactId>ג'סופ</artifactId>
  <version>1.16.1</version>
</תלות>

התקן את ספריית Jsoup באמצעות Gradle

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
 

אתה יכול גם להתקין אותו ידנית; הורד את קבצי השחרור האחרונים ישירות מ- GitHub מאגר.

ניתוח קובץ HTML באמצעות Java API

אחת מהפונקציות המרכזיות של ספריית Jsoup בקוד פתוח היא היכולת שלה לנתח מסמכי HTML בתוך יישומי Java. הספרייה מאפשרת לחלץ נתונים ממסמכי HTML באמצעות URL המצביע על דף אינטרנט, מחרוזות HTML גולמיות, או ישירות על ידי טעינת קובץ מהדיסק. כדי לנתח מסמך HTML באמצעות Jsoup, מפתחים יכולים להשתמש בשיטה Jsoup.parse(). שיטה זו מקבלת את תוכן ה-HTML כמחרוזת ומחזירה אובייקט Document המייצג את ה-HTML המנותח. משם, מפתחים יכולים לנווט בעץ ה-DOM ולחלץ את האלמנטים הרצויים באמצעות סלקטורים או שיטות חצייה. הדוגמה הבאה מראה כיצד לנתח דף אינטרנט ל-DOM, ולבחור את הכותרות ממנו באמצעות פקודות Java.

איך לנתח קובץ HTML ולהוציא כותרות ממנו באמצעות Java API?

<
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

חלץ נתונים מקובץ HTML באמצעות Java

ספריית Jsoup כוללת פונקציות מאוד שימושיות לטעינה וחילוץ נתונים ממסמכי HTML בתוך יישומי Java. הספרייה מציעה שיטות אינטואיטיביות לחילוץ נתונים מאלמנטים של HTML. היא תומכת בחילוץ טקסט, שליפת מאפיינים וסריאליזציה של HTML, ומספקת למפתחים את הכלים הנדרשים לחלץ ול-manipulate נתונים לפי הצורך. זה מקל על שילוב פונקציות של גרידת אתרים ביישומי Java. הדוגמה הבאה מראה כיצד מתכנתים יכולים לחלץ מאפיינים, טקסט ו-HTML מאלמנטים בתוך יישומי Java.

איך לחלץ תכונות, טקסט ו-HTML מאלמנטים באמצעות Java API?

String html = "

An example link.

"; Document doc = Jsoup.parse(html); Element link = doc.select("a").first(); String text = doc.body().text(); // "An example link" String linkHref = link.attr("href"); // "http://example.com/" String linkText = link.text(); // "example"" String linkOuterH = link.outerHtml(); // "example" String linkInnerH = link.html(); // "example"

ערוך ומניפולציה של קבצי HTML באמצעות Java API

ספריית Jsoup בקוד פתוח מאפשרת למפתחים לטעון ולשנות מסמכי HTML בקלות בתוך היישומים שלהם ב-Java. בין אם מדובר בהוספה, הסרה או שינוי של אלמנטים, Jsoup מספקת API נוח כדי למניפולציה במבנה ה-HTML. תכונה זו מתבררת כחשובה מאוד כאשר שואבים נתונים ושומרים אותם בפורמט הרצוי או כאשר בונים כלים שמשנים תוכן HTML באופן תכנותי.

 עִברִית