HTML को निकालने, पार्स करने और प्रोसेस करने के लिए मुफ्त Java API

ओपन सोर्स जावा पायब्रेरी URL लोड करने, पार्स करने, फ़ेच करने, डेटा निकालने और संशोधित करने के लिए, HTML5 DOM विधियों और CSS चयनकर्ताओं का सर्वोत्तम उपयोग करते हुए।

Jsoup एक बहुत शक्तिशाली Java पुस्तकालय है जो सॉफ़्टवेयर डेवलपर्स को अपने स्वयं के Java अनुप्रयोगों के भीतर HTML से संबंधित कार्यों को संभालने में सक्षम बनाता है। जब Java में वेब स्क्रैपिंग और HTML पार्सिंग की बात आती है, तो Jsoup एक लोकप्रिय और शक्तिशाली पुस्तकालय के रूप में उभरा है। यह HTML दस्तावेज़ों से डेटा पार्स और निकालने, DOM को संशोधित करने और HTML संरचना के माध्यम से आसानी से नेविगेट करने का एक सुविधाजनक और सहज तरीका प्रदान करता है। Jsoup एक ओपन-सोर्स प्रोजेक्ट है जो उदार MIT लाइसेंस के तहत वितरित किया गया है। एक Java पुस्तकालय के रूप में, Jsoup मौजूदा Java परियोजनाओं के साथ सहजता से एकीकृत होता है, जिससे यह Java डेवलपर्स के लिए एक आदर्श विकल्प बनता है।

Jsoup एक मुफ्त उपयोग के लिए उपलब्ध Java पुस्तकालय है जो सॉफ़्टवेयर डेवलपर्स को HTML और XML दस्तावेज़ों से डेटा निकालने और उसे संशोधित करने की अनुमति देता है। यह Java और वेब स्क्रैपिंग की दुनिया के बीच एक सुविधाजनक पुल के रूप में कार्य करता है, HTML सामग्री को प्राप्त करने, पार्स करने, संशोधित करने और नेविगेट करने के लिए एक मजबूत सेट की सुविधाएँ प्रदान करता है। चाहे आपको एक वेब पृष्ठ से विशिष्ट डेटा निकालने की आवश्यकता हो, कई पृष्ठों को स्क्रैप करना हो, या HTML दस्तावेज़ों की संरचना को संशोधित करना हो, Jsoup इन कार्यों को पूरा करने के लिए एक उपयोगकर्ता-अनुकूल API प्रदान करता है।

Jsoup एक साफ और सहज API प्रदान करता है जो इसे शुरुआती लोगों के लिए अनुकूल और जल्दी सीखने योग्य बनाता है। HTML को पार्स करने, संशोधित करने और नेविगेट करने के लिए सीधे तरीके के साथ, डेवलपर्स बिना किसी समय के वेब डेटा स्क्रैपिंग शुरू कर सकते हैं। इसकी विस्तारशीलता सॉफ़्टवेयर डेवलपर्स को पुस्तकालय के शीर्ष पर कस्टम कार्यक्षमता बनाने की अनुमति देती है। यह उपयोगकर्ता-परिभाषित विशेषताओं, कस्टम फ़िल्टर और कस्टम ट्रैवर्सर्स का समर्थन करता है, जिससे सॉफ़्टवेयर डेवलपर्स पुस्तकालय को अपनी विशिष्ट आवश्यकताओं के अनुसार अनुकूलित कर सकते हैं। इसकी सहज API, विभिन्न प्रकार की सुविधाओं के साथ मिलकर, इसे डेवलपर्स के बीच एक लोकप्रिय विकल्प बनाती है। चाहे आपको डेटा निकालने, DOM को संशोधित करने या जटिल HTML परिदृश्यों को संभालने की आवश्यकता हो, Jsoup प्रक्रिया को सरल बनाता है और मजबूत समाधान प्रदान करता है।

एक नज़र में

Jsoup की विशेषताओं का अवलोकन।

विशेषताएँ अवलोकन

वेब स्क्रैपिंग
एचटीएमएल फ़ाइलों में हेरफेर करें
एचटीएमएल से चित्र निकालें
एचटीएमएल खोलें
एचटीएमएल पढ़ें
एचटीएमएल पार्स करें
एचटीएमएल रेंडरिंग
एचटीएमएल व्यूअर
HTML से PDF
सारणी निकालें
सादा पाठ निकालें

Jsoup

Jsoup HTML फ़ाइल प्रारूप के साथ-साथ निर्यात के लिए उद्योग-मानक प्रारूपों का समर्थन करता है।

पाठक

एचटीएमएल

लेखक

TXT, HTML , PDF

Jsoup

प्लेटफ़ॉर्म स्वतंत्रता

Jsoup केवल Java रनटाइम की आवश्यकता है।

जावा 8 और उससे ऊपर।

Jsoup

Jsoup के साथ शुरुआत करना

Jsoup का उपयोग करने का अनुशंसित तरीका आवश्यक Maven या Gradle कॉन्फ़िगरेशन को शामिल करना है या अपने प्रोजेक्ट में JAR फ़ाइल को मैन्युअल रूप से आयात करना है। कृपया सुचारू कार्य के लिए Maven निर्भरता जोड़ें।

Jsoup मेवेन निर्भरता

<dependency>
  
  <groupId>ऑर्ग.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

ग्रेडल के माध्यम से Jsoup लाइब्रेरी स्थापित करें

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

आप इसे मैन्युअल रूप से भी इंस्टॉल कर सकते हैं; GitHub रिपॉजिटरी से नवीनतम रिलीज़ फ़ाइलें सीधे डाउनलोड करें।

जावा एपीआई का उपयोग करके एचटीएमएल फ़ाइल पार्स करना

ओपन सोर्स Jsoup लाइब्रेरी की एक मुख्य कार्यक्षमता यह है कि यह जावा अनुप्रयोगों के भीतर HTML दस्तावेज़ों को पार्स करने की क्षमता रखती है। यह लाइब्रेरी एक वेबपेज की ओर इशारा करने वाले URL, कच्चे HTML स्ट्रिंग्स, या सीधे डिस्क से एक फ़ाइल लोड करके HTML दस्तावेज़ों से डेटा निकालने की अनुमति देती है। Jsoup का उपयोग करके HTML दस्तावेज़ को पार्स करने के लिए, सॉफ़्टवेयर डेवलपर्स Jsoup.parse() विधि का उपयोग कर सकते हैं। यह विधि HTML सामग्री को एक स्ट्रिंग के रूप में स्वीकार करती है और पार्स किए गए HTML का प्रतिनिधित्व करने वाला एक Document ऑब्जेक्ट लौटाती है। वहां से, डेवलपर्स DOM पेड़ को नेविगेट कर सकते हैं और चयनकर्ताओं या ट्रैवर्सिंग विधियों का उपयोग करके वांछित तत्वों को निकाल सकते हैं। निम्नलिखित उदाहरण दिखाता है कि कैसे एक वेबपेज को DOM में पार्स किया जाए, और इसे जावा कमांड का उपयोग करके शीर्षकों का चयन किया जाए।

HTML फ़ाइल को कैसे पार्स करें और Java API के माध्यम से उससे शीर्षक निकालें?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

HTML फ़ाइल से डेटा निकालें Java का उपयोग करके

Jsoup पुस्तकालय ने Java अनुप्रयोगों के भीतर HTML दस्तावेज़ों से डेटा लोड और निकालने के लिए बहुत उपयोगी फ़ंक्शन शामिल किए हैं। यह पुस्तकालय HTML तत्वों से डेटा निकालने के लिए सहज विधियाँ प्रदान करता है। यह पाठ निकालने, विशेषता पुनर्प्राप्ति, और HTML अनुक्रमणिका का समर्थन करता है, जिससे डेवलपर्स को आवश्यक उपकरण मिलते हैं ताकि वे डेटा को निकाल और आवश्यकतानुसार संशोधित कर सकें। इससे Java अनुप्रयोगों में वेब स्क्रैपिंग कार्यक्षमताओं को एकीकृत करना आसान हो जाता है। निम्नलिखित उदाहरण दिखाता है कि प्रोग्रामर Java अनुप्रयोगों के भीतर तत्वों से विशेषताएँ, पाठ, और HTML कैसे निकाल सकते हैं।

Java API के माध्यम से तत्वों से विशेषताएँ, पाठ और HTML कैसे निकालें?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

जावा एपीआई के माध्यम से एचटीएमएल फ़ाइलों को संपादित और प्रबंधित करें

ओपन सोर्स Jsoup लाइब्रेरी सॉफ़्टवेयर डेवलपर्स को अपने स्वयं के जावा अनुप्रयोगों के भीतर HTML दस्तावेज़ों को लोड और संशोधित करने की अनुमति देती है। चाहे यह तत्वों को जोड़ना, हटाना या संशोधित करना हो, Jsoup HTML संरचना को संशोधित करने के लिए एक सुविधाजनक API प्रदान करता है। यह विशेषता डेटा को स्क्रैप करने और इसे इच्छित प्रारूप में सहेजने या ऐसे उपकरण बनाने के समय अमूल्य साबित होती है जो प्रोग्रामेटिक रूप से HTML सामग्री को संशोधित करते हैं।