1. Các sản phẩm
  2.   HTML
  3.   .NET
  4.   Html Agility Pack (HAP)
 
  

API C# .NET miễn phí để phân tích tài liệu HTML

Thư viện C# .NET nguồn mở cho phép các nhà phát triển phần mềm phân tích cú pháp tài liệu HTML, thao tác các thành phần HTML và trích xuất dữ liệu có liên quan

Phân tích cú pháp HTML, thu thập dữ liệu web và trích xuất dữ liệu có thể là những công việc khó khăn nhưng thiết yếu đối với các kỹ sư web và phần mềm. Tuy nhiên, giờ đây, các kỹ sư web có thể thở phào nhẹ nhõm nhờ thư viện Html Agility Pack (HAP). Html Agility Pack (HAP) là một thư viện mã nguồn mở rất mạnh mẽ, giúp đơn giản hóa quá trình phân tích cú pháp, thao tác và truy vấn tài liệu HTML, trở thành một công cụ không thể thiếu cho cả các nhà phát triển web và những người đam mê dữ liệu.

Html Agility Pack là một thư viện mã nguồn mở dành cho .NET, cho phép các nhà phát triển phân tích cú pháp tài liệu HTML một cách dễ dàng. Nó cung cấp một mô hình đối tượng tiện lợi và một bộ API mạnh mẽ để điều hướng và thao tác các phần tử HTML theo chương trình. Cho dù bạn cần trích xuất dữ liệu từ trang web, thu thập thông tin hay thực hiện bất kỳ tác vụ nào khác liên quan đến HTML, HAP đều có thể giúp bạn với giao diện trực quan và chức năng mở rộng. Thư viện HAP có thể dễ dàng tích hợp vào các ứng dụng .NET của bạn bằng NuGet. Chỉ cần cài đặt gói và bắt đầu sử dụng các tính năng của nó trong mã của bạn.

Sử dụng thư viện Html Agility Pack (HAP), các nhà phát triển phần mềm có thể tương tác với các phần tử HTML bằng một mô hình đối tượng đơn giản và trực quan. Các phần tử có thể dễ dàng được chọn, chỉnh sửa và truy vấn bằng cú pháp quen thuộc, giúp việc điều hướng và thao tác tài liệu HTML theo chương trình trở nên dễ dàng. Thư viện này là một bước đột phá cho các nhà phát triển làm việc với các tác vụ phân tích cú pháp và thao tác HTML. Bằng cách đơn giản hóa sự phức tạp khi làm việc với tài liệu HTML, HAP cho phép các nhà phát triển phần mềm tập trung vào việc trích xuất dữ liệu có ý nghĩa và xây dựng các ứng dụng mạnh mẽ.

Previous Next

Bắt đầu với HTML Agility Pack

Cách được khuyến nghị để cài đặt HTML Agility Pack (HAP) là sử dụng NuGet. Vui lòng sử dụng lệnh sau để cài đặt trơn tru.

Install Html Agility Pack via NuGet

NuGet\Install-Package HtmlAgilityPack -Version 1.11.46 

Bạn cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.

Phân tích cú pháp HTML mạnh mẽ thông qua API C#

Thư viện Html Agility Pack (HAP) mã nguồn mở đã bao gồm các tính năng rất hữu ích để tải và phân tích cú pháp HTML bên trong các ứng dụng C#. Thư viện HAP được thiết kế để xử lý HTML bị lỗi và có thể phân tích cú pháp ngay cả những tài liệu HTML phức tạp nhất. Nó thực hiện cân bằng thẻ tự động, hỗ trợ thẻ tự đóng và điều chỉnh theo các tình huống thẻ bị lỗi. Có nhiều cách khác nhau để tải và phân tích cú pháp HTML, chẳng hạn như từ tệp, chuỗi, web và từ trình duyệt. Đoạn mã sau đây minh họa các cách khác nhau để tải và phân tích cú pháp tệp bên trong các ứng dụng .NET.

Làm thế nào để tải và phân tích các tệp bên trong ứng dụng .NET thông qua Thư viện C#?

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

Thao tác với tài liệu HTML thông qua API C#

Thư viện Html Agility Pack (HAP) miễn phí đã tích hợp các tính năng rất mạnh mẽ để làm việc với tài liệu và phần tử HTML bên trong các ứng dụng C#. HAP cho phép bạn chỉnh sửa cấu trúc HTML bằng cách thêm, sửa đổi hoặc xóa các phần tử. Thư viện có một số tính năng quan trọng, chẳng hạn như tạo bản sao của nút, chèn nút được chỉ định ngay lập tức, xóa tất cả các nút con, thêm nút được chỉ định vào cuối danh sách, tạo nút HTML từ một chuỗi biểu diễn HTML theo nghĩa đen và nhiều tính năng khác. Bạn có thể cập nhật thuộc tính, thay đổi nội dung văn bản hoặc thậm chí sao chép các phần tử theo yêu cầu của mình. Ví dụ sau đây minh họa cách thao tác với tài liệu HTML bằng mã C#.

Tải và thao tác tài liệu HTML thông qua .NET API

var doc = new HtmlDocument();
doc.LoadHtml(html);

// InnerHtml 
var innerHtml = doc.DocumentNode.InnerHtml;

// InnerText 
var innerText = doc.DocumentNode.InnerText;

 Tiếng Việt