API رایگان C# .NET برای تجزیه اسناد HTML
C# .NET که به توسعهدهندگان نرمافزار این امکان را میدهد تا اسناد HTML را تجزیه کنند، عناصر HTML را دستکاری کنند و دادههای مرتبط را استخراج کنند.
تحلیل HTML، جمعآوری اطلاعات از وب و استخراج دادهها میتواند وظایف چالشبرانگیز و ضروری برای مهندسان وب و نرمافزار باشد. با این حال، مهندسان وب اکنون میتوانند با تشکر از کتابخانه Html Agility Pack (HAP) نفس راحتی بکشند. Html Agility Pack (HAP) یک کتابخانه متنباز بسیار قدرتمند است که فرآیند تحلیل، دستکاری و پرسوجو از اسناد HTML را ساده میکند و آن را به یک دارایی ضروری برای توسعهدهندگان وب و علاقهمندان به دادهها تبدیل میکند.
کتابخانه Html Agility Pack یک کتابخانه متنباز برای .NET است که به توسعهدهندگان اجازه میدهد به راحتی اسناد HTML را تجزیه کنند. این کتابخانه یک مدل شیء مناسب و مجموعهای قوی از APIها را برای ناوبری و دستکاری عناصر HTML به صورت برنامهنویسی فراهم میکند. چه نیاز به استخراج دادهها از وبسایتها داشته باشید، چه اطلاعات را جمعآوری کنید، یا هر کار دیگری مرتبط با HTML انجام دهید، HAP با رابط کاربری شهودی و قابلیتهای گستردهاش به کمک شما میآید. کتابخانه HAP به راحتی میتواند به برنامههای .NET شما با استفاده از NuGet ادغام شود. به سادگی بسته را نصب کنید و شروع به استفاده از ویژگیهای آن در کد خود کنید.
با استفاده از کتابخانه Html Agility Pack (HAP)، توسعهدهندگان نرمافزار میتوانند با عناصر HTML از طریق یک مدل شیء ساده و شهودی تعامل داشته باشند. عناصر به راحتی قابل انتخاب، تغییر و پرسوجو هستند و با استفاده از نحو آشنا، کار با اسناد HTML به راحتی امکانپذیر است. این کتابخانه برای توسعهدهندگانی که با وظایف تجزیه و دستکاری HTML کار میکنند، یک تغییر دهنده بازی است. با سادهسازی پیچیدگیهای کار با اسناد HTML، HAP به توسعهدهندگان نرمافزار این امکان را میدهد که بر روی استخراج دادههای معنادار و ساخت برنامههای قوی تمرکز کنند.
آغاز کار با Html Agility Pack
روش پیشنهادی برای نصب Html Agility Pack (HAP) استفاده از NuGet است. لطفاً از دستور زیر برای نصب روان استفاده کنید.
نصب Html Agility Pack از طریق NuGet
NuGet\Install-Package HtmlAgilityPack -Version 1.11.46
شما همچنین میتوانید آن را به صورت دستی نصب کنید؛ آخرین فایلهای انتشار را بهطور مستقیم از مخزن GitHub دانلود کنید.
تحلیل HTML قوی از طریق API C#
کتابخانه منبع باز Html Agility Pack (HAP) ویژگیهای بسیار مفیدی برای بارگذاری و تجزیه HTML در داخل برنامههای C# ارائه داده است. کتابخانه HAP به گونهای طراحی شده است که بتواند HTML ناقص را مدیریت کند و حتی میتواند پیچیدهترین اسناد HTML را تجزیه کند. این کتابخانه تعادل خودکار تگها را انجام میدهد، از تگهای خودبسته پشتیبانی میکند و به وضعیتهای تگ سوپ سازگار میشود. روشهای مختلفی برای بارگذاری و تجزیه HTML وجود دارد، مانند بارگذاری از فایل، رشته، وب و از مرورگر. کد زیر روشهای مختلفی را برای بارگذاری و تجزیه فایلها در داخل برنامههای .NET نشان میدهد.
چگونه فایلها را در برنامههای .NET از طریق کتابخانه C# بارگذاری و تجزیه کنیم؟
// From File
var doc = new HtmlDocument();
doc.Load(filePath);
// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);
// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
مدیریت اسناد HTML از طریق API C#
کتابخانه رایگان Html Agility Pack (HAP) ویژگیهای بسیار قدرتمندی برای کار با اسناد و عناصر HTML در برنامههای C# ارائه میدهد. HAP به شما این امکان را میدهد که ساختار HTML را با افزودن، تغییر یا حذف عناصر تغییر دهید. چندین ویژگی مهم بخشی از این کتابخانه هستند، مانند ایجاد یک نسخه تکراری از گره، درج گره مشخص شده به طور فوری، حذف تمام فرزندان، افزودن گره مشخص شده به انتهای لیست، ایجاد یک گره HTML از یک رشته که نمایانگر HTML واقعی است و بسیاری دیگر. شما میتوانید ویژگیها را بهروزرسانی کنید، محتوای متنی را تغییر دهید یا حتی عناصر را طبق نیازهای خود کپی کنید. مثال زیر نشان میدهد که چگونه میتوان اسناد HTML را با استفاده از کد C# دستکاری کرد.
بارگذاری و دستکاری اسناد HTML از طریق API .NET
var doc = new HtmlDocument();
doc.LoadHtml(html);
// InnerHtml
var innerHtml = doc.DocumentNode.InnerHtml;
// InnerText
var innerText = doc.DocumentNode.InnerText;