HTML বের করতে, বিশ্লেষণ করতে ও প্রক্রিয়া করতে ফ্রি জাভা এপিআই

ওপেন সোর্স জাভা লাইব্রেরি ইউআরএল লোড, পার্স, ফেচ, ডেটা এক্সট্র্যাক্ট এবং ম্যানিপুলেট করার জন্য, HTML5 DOM পদ্ধতি এবং CSS সিলেক্টরগুলোর সেরা ব্যবহার করে।

Jsoup একটি খুব শক্তিশালী Java লাইব্রেরি যা সফটওয়্যার ডেভেলপারদের তাদের নিজস্ব Java অ্যাপ্লিকেশনের মধ্যে HTML সম্পর্কিত কাজগুলি পরিচালনা করতে সক্ষম করে। যখন Java-তে ওয়েব স্ক্র্যাপিং এবং HTML পার্সিংয়ের কথা আসে, Jsoup একটি জনপ্রিয় এবং শক্তিশালী লাইব্রেরি হিসেবে আবির্ভূত হয়েছে। এটি HTML ডকুমেন্ট থেকে ডেটা পার্স এবং এক্সট্র্যাক্ট করা, DOM পরিচালনা করা এবং HTML কাঠামো সহজেই অতিক্রম করার জন্য একটি সুবিধাজনক এবং স্বজ্ঞাত উপায় প্রদান করে। Jsoup একটি ওপেন সোর্স প্রকল্প যা উদার MIT লাইসেন্সের অধীনে বিতরণ করা হয়। একটি Java লাইব্রেরি হিসেবে, Jsoup বিদ্যমান Java প্রকল্পগুলির সাথে নির্বিঘ্নে একত্রিত হয়, যা Java ডেভেলপারদের জন্য এটি একটি আদর্শ পছন্দ করে তোলে।

Jsoup হল একটি বিনামূল্যে ব্যবহারের জন্য জাভা লাইব্রেরি যা সফটওয়্যার ডেভেলপারদের HTML এবং XML ডকুমেন্ট থেকে ডেটা বের করতে এবং পরিচালনা করতে সক্ষম করে। এটি জাভা এবং ওয়েব স্ক্র্যাপিংয়ের জগতের মধ্যে একটি সুবিধাজনক সেতু হিসেবে কাজ করে, HTML বিষয়বস্তু ফেচিং, পার্সিং, পরিচালনা এবং ট্রাভার্স করার জন্য একটি শক্তিশালী বৈশিষ্ট্য সেট অফার করে। আপনি যদি একটি ওয়েব পৃষ্ঠায় নির্দিষ্ট ডেটা বের করতে চান, একাধিক পৃষ্ঠা স্ক্র্যাপ করতে চান, অথবা HTML ডকুমেন্টের কাঠামো পরিবর্তন করতে চান, Jsoup এই কাজগুলি সম্পন্ন করার জন্য একটি ব্যবহারকারী-বান্ধব API প্রদান করে।

Jsoup একটি পরিষ্কার এবং স্বজ্ঞাত API প্রদান করে যা এটি নতুনদের জন্য বন্ধুত্বপূর্ণ এবং দ্রুত শিখতে সহায়ক। HTML পার্সিং, ম্যানিপুলেটিং এবং ট্রাভার্সিংয়ের জন্য সরল পদ্ধতিগুলির সাথে, ডেভেলপাররা খুব দ্রুত ওয়েব ডেটা স্ক্র্যাপিং শুরু করতে পারেন। এর সম্প্রসারণযোগ্যতা সফ্টওয়্যার ডেভেলপারদের লাইব্রেরির উপর কাস্টম কার্যকারিতা তৈরি করতে দেয়। এটি ব্যবহারকারী-সংজ্ঞায়িত অ্যাট্রিবিউট, কাস্টম ফিল্টার এবং কাস্টম ট্রাভার্সার সমর্থন করে, যা সফ্টওয়্যার ডেভেলপারদের তাদের নির্দিষ্ট প্রয়োজন অনুযায়ী লাইব্রেরিটি কাস্টমাইজ করতে সক্ষম করে। এর স্বজ্ঞাত API, বিস্তৃত বৈশিষ্ট্যগুলির সাথে মিলিত হয়ে, এটি ডেভেলপারদের মধ্যে একটি জনপ্রিয় পছন্দ করে তোলে। আপনি যদি ডেটা বের করতে, DOM ম্যানিপুলেট করতে বা জটিল HTML পরিস্থিতি পরিচালনা করতে চান, Jsoup প্রক্রিয়াটি সহজ করে এবং শক্তিশালী সমাধান প্রদান করে।

এক নজরে

Jsoup এর বৈশিষ্ট্যগুলোর একটি সারসংক্ষেপ।

ফিচারসমূহের সারসংক্ষেপ

ওয়েব স্ক্র্যাপিং
এইচটিএমএল ফাইলগুলি পরিচালনা করুন
এইচটিএমএল থেকে ছবি বের করুন
এইচটিএমএল খুলুন
এইচটিএমএল পড়ুন
এইচটিএমএল পার্স করুন
এইচটিএমএল রেন্ডারিং
এইচটিএমএল দর্শক
এইচটিএমএল থেকে পিডিএফ
টেবিল অফ কন্টেন্ট বের করুন
সাধারণ টেক্সট বের করুন

Jsoup

Jsoup HTML ফাইল ফরম্যাট এবং রপ্তানির জন্য শিল্প-মানের ফরম্যাট সমর্থন করে।

পাঠক

এইচটিএমএল

লেখক

TXT, HTML , PDF

Jsoup

প্ল্যাটফর্ম স্বাধীনতা

Jsoup শুধুমাত্র Java রানটাইমের প্রয়োজন।

জাভা ৮ এবং তার উপরে।

Jsoup

Jsoup এর সাথে শুরু করা

Jsoup ব্যবহার করার জন্য সুপারিশকৃত উপায় হল প্রয়োজনীয় Maven বা Gradle কনফিগারেশন অন্তর্ভুক্ত করা অথবা আপনার প্রকল্পে JAR ফাইলটি ম্যানুয়ালি আমদানি করা। দয়া করে মসৃণ কাজের জন্য Maven নির্ভরতা যোগ করুন।

Jsoup মেভেন নির্ভরতা

<dependency>
  
  <groupId>org.jsoup</groupId>
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</নির্ভরতা>

গ্র্যাডল এর মাধ্যমে Jsoup লাইব্রেরি ইনস্টল করুন

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

You can also install it manually; download the latest release files directly from GitHub repository.

জাভা এপিআই ব্যবহার করে এইচটিএমএল ফাইল পার্সিং

ওপেন সোর্স Jsoup লাইব্রেরির একটি মূল কার্যকারিতা হল এটি জাভা অ্যাপ্লিকেশনগুলির মধ্যে HTML ডকুমেন্টগুলি পার্স করার ক্ষমতা। এই লাইব্রেরিটি একটি ওয়েবপেজের দিকে নির্দেশিত URL, কাঁচা HTML স্ট্রিং, বা সরাসরি ডিস্ক থেকে একটি ফাইল লোড করে HTML ডকুমেন্ট থেকে ডেটা বের করতে দেয়। Jsoup ব্যবহার করে একটি HTML ডকুমেন্ট পার্স করতে, সফটওয়্যার ডেভেলপাররা Jsoup.parse() পদ্ধতি ব্যবহার করতে পারেন। এই পদ্ধতিটি HTML বিষয়বস্তু একটি স্ট্রিং হিসাবে গ্রহণ করে এবং পার্স করা HTML উপস্থাপনকারী একটি ডকুমেন্ট অবজেক্ট ফেরত দেয়। সেখান থেকে, ডেভেলপাররা DOM গাছটি নেভিগেট করতে পারেন এবং সিলেক্টর বা ট্রাভার্সিং পদ্ধতি ব্যবহার করে প্রয়োজনীয় উপাদানগুলি বের করতে পারেন। নিম্নলিখিত উদাহরণটি দেখায় কীভাবে একটি ওয়েবপেজকে DOM-এ পার্স করতে হয় এবং java কমান্ড ব্যবহার করে এর থেকে শিরোনামগুলি নির্বাচন করতে হয়।

কিভাবে HTML ফাইল পার্স করে তাতে থেকে শিরোনাম বের করবেন Java API এর মাধ্যমে?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

এইচটিএমএল ফাইল থেকে ডেটা বের করুন জাভা ব্যবহার করে

Jsoup লাইব্রেরিটি Java অ্যাপ্লিকেশনের মধ্যে HTML ডকুমেন্ট থেকে ডেটা লোড এবং এক্সট্র্যাক্ট করার জন্য খুবই উপকারী ফাংশন অন্তর্ভুক্ত করেছে। এই লাইব্রেরিটি HTML উপাদান থেকে ডেটা এক্সট্র্যাক্ট করার জন্য স্বজ্ঞাত পদ্ধতি প্রদান করে। এটি টেক্সট এক্সট্র্যাকশন, অ্যাট্রিবিউট পুনরুদ্ধার এবং HTML সিরিয়ালাইজেশন সমর্থন করে, ডেভেলপারদের প্রয়োজনীয় টুল সরবরাহ করে ডেটা এক্সট্র্যাক্ট এবং ম্যানিপুলেট করার জন্য। এটি Java অ্যাপ্লিকেশনের মধ্যে ওয়েব স্ক্র্যাপিং কার্যকারিতা একীভূত করা সহজ করে তোলে। নিম্নলিখিত উদাহরণটি দেখায় কিভাবে প্রোগ্রামাররা Java অ্যাপ্লিকেশনের মধ্যে উপাদান থেকে অ্যাট্রিবিউট, টেক্সট এবং HTML এক্সট্র্যাক্ট করতে পারে।

Java API এর মাধ্যমে উপাদান থেকে গুণাবলী, টেক্সট এবং HTML কিভাবে বের করবেন?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

জাভা এপিআই এর মাধ্যমে HTML ফাইল সম্পাদনা এবং পরিচালনা করুন

মুক্ত উৎস Jsoup লাইব্রেরি সফটওয়্যার ডেভেলপারদের তাদের নিজস্ব Java অ্যাপ্লিকেশনের মধ্যে HTML ডকুমেন্টগুলি সহজেই লোড এবং সংশোধন করার অনুমতি দেয়। এটি উপাদান যোগ করা, মুছে ফেলা বা সংশোধন করা হোক, Jsoup HTML কাঠামোকে পরিচালনা করার জন্য একটি সুবিধাজনক API প্রদান করে। এই বৈশিষ্ট্যটি ডেটা স্ক্র্যাপিং করার সময় এবং এটি একটি কাঙ্ক্ষিত ফরম্যাটে সংরক্ষণ করার সময় বা প্রোগ্রাম্যাটিকভাবে HTML বিষয়বস্তু পরিবর্তন করার জন্য সরঞ্জাম তৈরি করার সময় অমূল্য প্রমাণিত হয়।