1. Produk
  2.   Pemrosesan Kata
  3.   Python
  4.   Python-Mammoth
 
  

API Python untuk Mengonversi Konten Word DOCX menjadi HTML Siap-Web

Perpustakaan Python Sumber Terbuka yang memungkinkan Pengembang Perangkat Lunak membaca dan mengonversi Konten Microsoft Word DOCX menjadi HTML Siap-Web di dalam Aplikasi Python.

Apa itu Python-Mammoth?

Konversi dokumen telah menjadi kebutuhan penting bagi pengembang perangkat lunak yang membuat aplikasi berinteraksi dengan teks di lingkungan digital saat ini. Transisi yang mulus antar format file dapat menjamin kompatibilitas dan menghemat waktu saat bekerja pada platform e‑learning, alat otomasi dokumen, atau sistem manajemen konten (CMS). Salah satu perpustakaan kuat di bidang ini adalah Python-Mammoth, perpustakaan Python sumber terbuka yang dirancang khusus untuk mengonversi dokumen Microsoft Word (DOCX) menjadi HTML bersih dan semantik. Ia mendukung output HTML semantik, mengekstrak gambar dari file DOCX, pemetaan gaya kustom, peringatan berguna tentang elemen yang tidak didukung atau potensi masalah format, integrasi mudah dengan aplikasi berbasis Python, dan banyak lagi.

Dikembangkan oleh Michael Williamson, Python-Mammoth adalah perpustakaan Python sumber terbuka yang berfokus pada mengekstrak konten penting dari dokumen DOCX dan mengonversinya menjadi HTML terstruktur dengan baik. Tujuan utamanya adalah menghasilkan output HTML bersih dan semantik tanpa gaya inline yang tidak perlu atau markup yang berantakan. Berbeda dengan banyak alat konversi dokumen lainnya, ia mengutamakan kesederhanaan dan akurasi, mempertahankan semantik dokumen seperti heading, paragraf, dan daftar alih-alih berfokus pada representasi pixel‑perfect. Perpustakaan ini mendukung pembuatan laporan HTML bersih dan konsisten dari templat Word. Fokusnya pada kesederhanaan, output bersih, dan ekstensi membuatnya pilihan tepat bagi pengembang yang mencari solusi konversi dokumen.

Previous Next

Memulai dengan Python-Mammoth

Python-Mammoth dihosting di PyPI, sehingga sangat mudah untuk menginstalnya. Dapat diinstal dengan pip menggunakan perintah berikut.

Instal Python-Mammoth via perintah pip

 pip install mammoth 

Konversi Word DOCX ke HTML via Python

Perpustakaan Python-Mammoth sumber terbuka memudahkan pengembang perangkat lunak untuk memuat dan mengonversi file Microsoft Word DOCX menjadi HTML di dalam aplikasi Python. Salah satu fitur menonjol dari perpustakaan ini adalah kemampuannya menghasilkan output HTML bersih dan semantik. Ia menghindari penambahan gaya inline yang tidak diperlukan atau tag proprietari, memastikan HTML akhir tetap ringan dan mudah di‑styling dengan CSS. Contoh berikut menunjukkan bagaimana konten DOCX dikonversi menjadi HTML, siap untuk ditampilkan atau di‑styling lebih lanjut.

Cara Mengonversi Konten DOCX menjadi HTML via API Python?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Dukungan Pemetaan Gaya Kustom

Perpustakaan Python-Mammoth menyediakan berbagai opsi penyesuaian, memungkinkan pengembang perangkat lunak menyempurnakan proses ekstraksi teks sesuai kebutuhan spesifik mereka. Pengembang dapat mendefinisikan pemetaan gaya kustom untuk mengontrol bagaimana gaya DOCX dikonversi menjadi elemen HTML tertentu. Ini memberikan fleksibilitas lebih dalam merender konten dokumen. Berikut contoh yang menunjukkan bagaimana gaya Heading 1 di DOCX dipetakan secara eksplisit ke tag HTML h1 di dalam aplikasi Python.

Cara MEMETAKAN Gaya Heading 1 di DOCX ke Tag HTML H1 di dalam Aplikasi Python?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Konversi Gambar DOCX ke HTML via Python

Perpustakaan Python-Mammoth sumber terbuka memudahkan pengembang perangkat lunak mengekstrak gambar dari file Microsoft Word DOCX dan menyertakannya dalam HTML hasil. Secara default, referensi gambar disertakan sebagai URL, namun pengembang dapat menyesuaikan cara penanganan gambar. Berikut contoh yang menunjukkan bagaimana gambar dari file DOCX dipertahankan dalam output HTML menggunakan perintah Python.

Cara Mengonversi Gambar dari File DOCX ke Output HTML via API Python?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Analisis Tata Letak

Perpustakaan Python-Mammoth sumber terbuka dapat menganalisis tata letak dokumen Word DOCX, mengidentifikasi elemen seperti tabel, gambar, dan blok teks. Fitur ini penting bagi aplikasi yang memerlukan ekstraksi informasi tata letak yang akurat.

 Indonesia