Ücretsiz Java API'si ile HTML'yi Çıkartma, Ayrıştırma ve İşleme
çık Kaynak Java Kütüphanesi, URL'leri Yüklemek, Ayrıştırmak, Almak, Verileri Çıkarmak ve Manipüle Etmek için en iyi HTML5 DOM yöntemleri ve CSS seçicilerini kullanarak.
Jsoup, yazılım geliştiricilerin kendi Java uygulamaları içinde HTML ile ilgili görevleri yerine getirmelerini sağlayan çok güçlü bir Java kütüphanesidir. Web scraping ve HTML ayrıştırma söz konusu olduğunda, Jsoup popüler ve güçlü bir kütüphane olarak öne çıkmıştır. HTML belgelerinden veri ayrıştırmak ve çıkarmak, DOM'u manipüle etmek ve HTML yapısını kolayca gezmek için kullanışlı ve sezgisel bir yol sunar. Jsoup, liberal MIT lisansı altında dağıtılan açık kaynaklı bir projedir. Bir Java kütüphanesi olarak, Jsoup mevcut Java projeleriyle sorunsuz bir şekilde entegre olur ve bu da onu Java geliştiricileri için ideal bir seçim haline getirir.
Jsoup, yazılım geliştiricilerin HTML ve XML belgelerinden veri çıkarmasını ve manipüle etmesini sağlayan ücretsiz bir Java kütüphanesidir. Java ile web scraping dünyası arasında pratik bir köprü işlevi görerek, HTML içeriğini alma, ayrıştırma, manipüle etme ve gezme için sağlam bir özellik seti sunar. Bir web sayfasından belirli verileri çıkarmanız, birden fazla sayfayı kazımanız veya HTML belgelerinin yapısını değiştirmeniz gerekiyorsa, Jsoup bu görevleri başarmak için kullanıcı dostu bir API sağlar.
Jsoup, başlangıç dostu ve hızlı öğrenilebilir bir API sunar. HTML'yi ayrıştırma, manipüle etme ve gezme için basit yöntemlerle, geliştiriciler web verilerini hızlı bir şekilde toplamaya başlayabilir. Genişletilebilirliği, yazılım geliştiricilerin kütüphanenin üzerine özel işlevsellik inşa etmelerine olanak tanır. Kullanıcı tanımlı öznitelikleri, özel filtreleri ve özel gezicileri destekleyerek, yazılım geliştiricilerin kütüphaneyi kendi özel ihtiyaçlarına göre uyarlamalarını sağlar. Kullanıcı dostu API'si ve geniş özellik yelpazesi, onu geliştiriciler arasında popüler bir seçim haline getirir. Verileri çıkarmanız, DOM'u manipüle etmeniz veya karmaşık HTML senaryolarını yönetmeniz gerektiğinde, Jsoup süreci basitleştirir ve sağlam çözümler sunar.
Jsoup ile Başlarken
Jsoup'u kullanmanın önerilen yolu, gerekli Maven veya Gradle yapılandırmasını dahil etmek veya JAR dosyasını projenize manuel olarak içe aktarmaktır. Lütfen sorunsuz çalışma için maven bağımlılığını ekleyin.
Jsoup Maven Bağımlılığı
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>Jsoup</artifactId>
<version>1.16.1</version>
</dependency>
Install Jsoup Library via Gradle
// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install
Manuel olarak da kurabilirsiniz; en son sürüm dosyalarını doğrudan GitHub deposundan indirin.
Java API Kullanarak HTML Dosyasını Ayrıştırma
Açık kaynak Jsoup kütüphanesinin temel işlevlerinden biri, HTML belgelerini Java uygulamaları içinde ayrıştırma yeteneğidir. Kütüphane, bir web sayfasına işaret eden bir URL, ham HTML dizeleri veya doğrudan diskteki bir dosyayı yükleyerek HTML belgelerinden veri çıkarmaya olanak tanır. Jsoup kullanarak bir HTML belgesini ayrıştırmak için yazılım geliştiricileri Jsoup.parse() yöntemini kullanabilirler. Bu yöntem, HTML içeriğini bir dize olarak kabul eder ve ayrıştırılan HTML'yi temsil eden bir Document nesnesi döndürür. Buradan, geliştiriciler DOM ağacında gezinip, seçiciler veya gezinme yöntemleri kullanarak istenen öğeleri çıkarabilirler. Aşağıdaki örnek, bir web sayfasını bir DOM'a nasıl ayrıştıracağınızı ve java komutları kullanarak başlıkları nasıl seçeceğinizi göstermektedir.
HTML Dosyasını Nasıl Ayrıştırır ve Java API'si ile Başlıkları Çekeriz?
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log("%s\n\t%s",
headline.attr("title"), headline.absUrl("href"));
}
HTML Dosyasından Java Kullanarak Veri Çekme
Jsoup kütüphanesi, Java uygulamaları içinde HTML belgelerinden veri yüklemek ve çıkarmak için çok kullanışlı işlevler içermektedir. Kütüphane, HTML öğelerinden veri çıkarmak için sezgisel yöntemler sunar. Metin çıkarımı, öznitelik alma ve HTML serileştirmeyi destekleyerek geliştiricilere verileri gerektiği gibi çıkarmak ve manipüle etmek için gerekli araçları sağlar. Bu, web kazıma işlevselliğini Java uygulamalarına entegre etmeyi kolaylaştırır. Aşağıdaki örnek, programcıların Java uygulamaları içinde öğelerden öznitelikleri, metni ve HTML'yi nasıl çıkarabileceğini göstermektedir.
Java API'si ile Elemanlardan Özellikleri, Metni ve HTML'yi Nasıl Çıkarırsınız?
String html = "An example link.
";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""
String linkOuterH = link.outerHtml();
// "example"
String linkInnerH = link.html(); // "example"
Java API ile HTML Dosyalarını Düzenleyin ve Manipüle Edin
Açık kaynak Jsoup kütüphanesi, yazılım geliştiricilerin kendi Java uygulamaları içinde HTML belgelerini zahmetsizce yükleyip değiştirmelerine olanak tanır. İster öğeleri eklemek, çıkarmak veya değiştirmek olsun, Jsoup HTML yapısını manipüle etmek için kullanışlı bir API sunar. Bu özellik, veri kazıma işlemleri yaparken ve verileri istenen bir formatta kaydederken veya HTML içeriğini programlı olarak değiştiren araçlar oluştururken son derece değerlidir.