API Python để Chuyển đổi Nội dung Word DOCX thành HTML chuẩn web

Thư viện Python mã nguồn mở cho phép các nhà phát triển phần mềm đọc và chuyển đổi nội dung Microsoft Word DOCX thành HTML chuẩn web trong các ứng dụng Python.

Python-Mammoth là gì?

Việc chuyển đổi tài liệu đã trở thành một nhu cầu thiết yếu đối với các nhà phát triển phần mềm tạo ra các ứng dụng tương tác với văn bản trong môi trường kỹ thuật số ngày nay. Một quá trình chuyển đổi mượt mà giữa các định dạng tệp có thể đảm bảo tính tương thích và tiết kiệm thời gian khi làm việc trên nền tảng e‑learning, công cụ tự động hóa tài liệu, hoặc hệ thống quản lý nội dung (CMS). Một thư viện mạnh mẽ trong lĩnh vực này là Python‑Mammoth, một thư viện Python mã nguồn mở được thiết kế đặc biệt để chuyển đổi các tài liệu Microsoft Word (DOCX) thành HTML sạch sẽ và có ngữ nghĩa. Nó hỗ trợ đầu ra HTML có ngữ nghĩa, trích xuất hình ảnh từ các tệp DOCX, ánh xạ kiểu tùy chỉnh, cung cấp các cảnh báo hữu ích về các yếu tố không được hỗ trợ hoặc các vấn đề định dạng tiềm năng, dễ dàng tích hợp với các ứng dụng dựa trên Python và nhiều hơn nữa.

Được phát triển bởi Michael Williamson, Python‑Mammoth là một thư viện Python mã nguồn mở tập trung vào việc trích xuất nội dung thiết yếu từ tài liệu DOCX và chuyển đổi chúng thành HTML có cấu trúc tốt. Mục tiêu chính của nó là tạo ra đầu ra HTML sạch sẽ và có ngữ nghĩa mà không có các kiểu nội tuyến không cần thiết hay mã đánh dấu rối rắm. Không giống như nhiều công cụ chuyển đổi tài liệu khác, nó ưu tiên tính đơn giản và độ chính xác, bảo tồn các ngữ nghĩa của tài liệu như tiêu đề, đoạn văn và danh sách thay vì tập trung vào việc tái tạo pixel‑perfect. Thư viện hỗ trợ tạo ra các báo cáo HTML sạch sẽ và nhất quán từ các mẫu Word. Sự tập trung vào tính đơn giản, đầu ra sạch sẽ và khả năng mở rộng khiến nó trở thành lựa chọn xuất sắc cho các nhà phát triển tìm kiếm giải pháp chuyển đổi tài liệu.

Previous Next

Bắt đầu với Python-Mammoth

Python-Mammoth được lưu trữ trên PyPI, do đó việc cài đặt nó rất đơn giản. Bạn có thể cài đặt bằng pip sử dụng lệnh sau.

Cài đặt Python-Mammoth bằng lệnh pip

 pip install mammoth 

Chuyển đổi Word DOCX sang HTML bằng Python

Thư viện Python‑Mammoth mã nguồn mở giúp các nhà phát triển phần mềm dễ dàng tải và chuyển đổi tệp Microsoft Word DOCX thành HTML trong các ứng dụng Python. Một trong những tính năng nổi bật của thư viện là khả năng tạo ra đầu ra HTML sạch sẽ và có ngữ nghĩa. Nó tránh chèn các kiểu nội tuyến không cần thiết hoặc các thẻ độc quyền, đảm bảo HTML cuối cùng vẫn nhẹ và dễ dàng định dạng bằng CSS. Ví dụ dưới đây cho thấy cách nội dung DOCX được chuyển đổi thành HTML, sẵn sàng để hiển thị hoặc định dạng thêm.

Cách chuyển đổi nội dung DOCX sang HTML qua API Python?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Hỗ trợ ánh xạ kiểu tùy chỉnh

Thư viện Python‑Mammoth cung cấp một loạt các tùy chọn tùy chỉnh, cho phép các nhà phát triển phần mềm tinh chỉnh quá trình trích xuất văn bản để phù hợp với nhu cầu cụ thể của họ. Các nhà phát triển có thể định nghĩa các ánh xạ kiểu tùy chỉnh để kiểm soát cách các kiểu DOCX được chuyển đổi thành các phần tử HTML cụ thể. Điều này mang lại sự linh hoạt cao hơn trong việc hiển thị nội dung tài liệu. Dưới đây là một ví dụ cho thấy cách kiểu Heading 1 trong DOCX được ánh xạ rõ ràng thành thẻ HTML h1 trong các ứng dụng Python.

Cách ánh xạ kiểu Heading 1 trong DOCX thành thẻ HTML H1 trong các ứng dụng Python?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Chuyển đổi hình ảnh DOCX sang HTML bằng Python

Thư viện Python‑Mammoth mã nguồn mở giúp các nhà phát triển phần mềm dễ dàng trích xuất hình ảnh từ các tệp Microsoft Word DOCX và đưa chúng vào HTML kết quả. Mặc định, các tham chiếu hình ảnh được đưa vào dưới dạng URL, nhưng các nhà phát triển có thể tùy chỉnh cách xử lý hình ảnh. Dưới đây là một ví dụ cho thấy cách các hình ảnh từ tệp DOCX được giữ lại trong đầu ra HTML bằng các lệnh Python.

Cách chuyển đổi hình ảnh từ tệp DOCX sang đầu ra HTML qua API Python?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Phân tích bố cục

Thư viện Python‑Mammoth mã nguồn mở có thể phân tích bố cục của tài liệu Word DOCX, xác định các yếu tố như bảng, hình ảnh và các khối văn bản. Tính năng này rất quan trọng đối với các ứng dụng yêu cầu trích xuất thông tin bố cục một cách chính xác.

 Tiếng Việt