API C# .NET Gratis untuk Mengurai Dokumen HTML
Perpustakaan C# .NET sumber terbuka yang memungkinkan pengembang perangkat lunak untuk mengurai dokumen HTML, memanipulasi elemen HTML, dan mengekstrak data yang relevan
Pemrosesan HTML, pengambilan data dari web, dan ekstraksi data bisa menjadi tugas yang menantang dan penting bagi insinyur web dan perangkat lunak. Namun, insinyur web kini dapat bernapas lega berkat pustaka Html Agility Pack (HAP). Html Agility Pack (HAP) adalah pustaka sumber terbuka yang sangat kuat yang menyederhanakan proses pemrosesan, manipulasi, dan kueri dokumen HTML, menjadikannya aset yang tak tergantikan bagi pengembang web dan penggemar data.
Paket Html Agility adalah perpustakaan sumber terbuka untuk .NET yang memungkinkan pengembang untuk dengan mudah mem-parsing dokumen HTML. Ini menyediakan model objek yang nyaman dan seperangkat API yang kuat untuk menavigasi dan memanipulasi elemen HTML secara programatis. Apakah Anda perlu mengekstrak data dari situs web, mengumpulkan informasi, atau melakukan tugas terkait HTML lainnya, HAP hadir untuk menyelamatkan dengan antarmuka intuitif dan fungsionalitas yang luas. Perpustakaan HAP dapat dengan mudah diintegrasikan ke dalam aplikasi .NET Anda menggunakan NuGet. Cukup instal paketnya dan mulai gunakan fitur-fiturnya dalam kode Anda.
Dengan menggunakan pustaka Html Agility Pack (HAP), pengembang perangkat lunak dapat berinteraksi dengan elemen HTML menggunakan model objek yang sederhana dan intuitif. Elemen dapat dengan mudah dipilih, dimodifikasi, dan ditanyakan menggunakan sintaks yang familiar, membuatnya mudah untuk menavigasi dan memanipulasi dokumen HTML secara programatis. Pustaka ini merupakan perubahan besar bagi pengembang yang bekerja dengan tugas parsing dan manipulasi HTML. Dengan menyederhanakan kompleksitas bekerja dengan dokumen HTML, HAP memberdayakan pengembang perangkat lunak untuk fokus pada pengambilan data yang berarti dan membangun aplikasi yang kuat.
Memulai dengan Html Agility Pack
Cara yang disarankan untuk menginstal Html Agility Pack (HAP) adalah dengan menggunakan NuGet. Silakan gunakan perintah berikut untuk instalasi yang lancar.
Instal Html Agility Pack melalui NuGet
NuGet\Install-Package HtmlAgilityPack -Version 1.11.46
Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari GitHub repository.
Pemrosesan HTML yang Kuat melalui API C#
Perpustakaan Html Agility Pack (HAP) sumber terbuka telah menyertakan fitur yang sangat berguna untuk memuat dan mem-parsing HTML di dalam aplikasi C#. Perpustakaan HAP dirancang untuk menangani HTML yang tidak terformat dengan baik dan dapat mem-parsing bahkan dokumen HTML yang paling kompleks. Ini melakukan penyeimbangan tag secara otomatis, mendukung tag yang menutup sendiri, dan menyesuaikan dengan situasi tag soup. Ada berbagai cara untuk memuat dan mem-parsing HTML, seperti dari file, string, web, dan dari Browser. Kode berikut menunjukkan berbagai cara untuk memuat dan mem-parsing file di dalam aplikasi .NET.
Bagaimana Memuat dan Mengurai file di dalam aplikasi .NET melalui Perpustakaan C#?
// From File
var doc = new HtmlDocument();
doc.Load(filePath);
// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);
// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
Manipulasi Dokumen HTML melalui API C#
Perpustakaan Html Agility Pack (HAP) gratis telah menyertakan fitur-fitur yang sangat kuat untuk bekerja dengan dokumen HTML dan elemen di dalam aplikasi C#. HAP memungkinkan Anda untuk memodifikasi struktur HTML dengan menambahkan, mengubah, atau menghapus elemen. Ada beberapa fitur penting yang merupakan bagian dari perpustakaan ini, seperti membuat duplikat dari node, menyisipkan node yang ditentukan secara langsung, menghapus semua anak, menambahkan node yang ditentukan ke akhir daftar, membuat node HTML dari string yang mewakili HTML literal, dan banyak lagi. Anda dapat memperbarui atribut, mengubah konten teks, atau bahkan mengkloning elemen sesuai dengan kebutuhan Anda. Contoh berikut menunjukkan bagaimana memanipulasi dokumen HTML menggunakan kode C#.
Memuat dan Memanipulasi Dokumen HTML melalui API .NET
var doc = new HtmlDocument();
doc.LoadHtml(html);
// InnerHtml
var innerHtml = doc.DocumentNode.InnerHtml;
// InnerText
var innerText = doc.DocumentNode.InnerText;