1. Produk
  2.   Pemrosesan Kata
  3.   Python
  4.   Docx2Python
 
  

API Python Gratis untuk Mengekstrak Teks, Tabel, Gambar dari File DOCX

Perpustakaan Python Sumber Terbuka untuk Mengekstrak Teks, Gambar, Tabel, Header dan Footer, atau Bagian Spesifik Lainnya dari Dokumen Word DOCX dalam Aplikasi Python.

Apa itu Perpustakaan Docx2Python?

Di era digital saat ini, memproses dan mengekstrak data dari dokumen secara efisien menjadi lebih penting daripada sebelumnya. Pengembang perangkat lunak sering menemukan file Microsoft Word DOCX yang berisi informasi berharga, namun parsingnya bisa menantang. Docx2Python adalah perpustakaan Python yang memungkinkan pengembang perangkat lunak mengekstrak teks, tabel, gambar, dan konten lainnya dari file .docx dengan mudah. Tidak seperti perpustakaan pemrosesan dokumen lainnya, Docx2Python dirancang khusus untuk menyediakan output yang bersih dan terstruktur yang mudah digunakan. Ini menjadikannya pilihan yang sangat baik bagi pengembang yang perlu mem-parsing dan menganalisis dokumen Word secara programatik. Perpustakaan ini bersifat open-source, artinya tersedia secara gratis untuk siapa saja untuk menggunakan, memodifikasi, dan mendistribusikannya.

Docx2Python adalah alat yang kuat dirancang untuk membaca file DOCX dan mengonversi isinya menjadi struktur data Python bersarang. Ini adalah perpustakaan sumber terbuka yang kuat dan fleksibel yang menyederhanakan ekstraksi data terstruktur dari file DOCX. Perpustakaan ini mendukung parsing komprehensif, pembuatan laporan otomatis, pemrosesan dokumen lanjutan, output data terstruktur, preservasi tata letak, dan sebagainya. Pengembang perangkat lunak dapat mengonversi konten DOCX ke format lain (seperti HTML atau Markdown) sambil mempertahankan tampilan yang dimaksudkan. Dengan mengadopsi solusi sumber terbuka seperti Docx2Python, pengembang dapat mengurangi beban kerja manual, mendorong inovasi, dan membuat aplikasi yang benar-benar mengubah cara kita berinteraksi dengan dan menganalisis data tekstual.

Previous Next

Memulai dengan Docx2Python

Docx2Python dihosting di PyPI, jadi sangat mudah untuk menginstalnya. Dapat diinstal dengan pip menggunakan perintah berikut.

Instal Docx2Python via perintah pip

pip install docx2python 

Ini juga dapat diinstal via easy_install tetapi tidak disarankan.

Mengekstrak Teks untuk Dokumen Word

Perpustakaan Docx2Python yang bersifat open-source memudahkan pengembang perangkat lunak untuk mengekstrak teks polos dari dokumen Word dalam aplikasi Python. Ia secara komprehensif mem-parsing setiap elemen dalam file DOCX. Baik Anda perlu mengekstrak teks polos, tabel detail, atau struktur halus header dan footer, perpustakaan ini menangani semuanya. Pendekatan parsing multi-levelnya memastikan bahwa bahkan elemen bersarang ditangkap secara akurat dalam struktur data output.

Cara Mengekstrak Teks dari Word DOCX menggunakan Kode Python?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Ekstraksi Tabel & Gambar dari File Word

Salah satu fitur paling kuat dari Docx2Python adalah kemampuannya mengekstrak tabel dari file Word .docx dengan mudah. Perpustakaan ini menangani tabel sederhana maupun bersarang, menjadikannya ideal untuk memproses dokumen kompleks. Selain itu, pengembang perangkat lunak dapat menggunakan perpustakaan ini untuk mengekstrak gambar yang disematkan dalam file Microsoft Word .docx, yang berguna untuk aplikasi yang memerlukan pemrosesan atau analisis gambar.

Cara Mengekstrak Tabel dari File Word DOCX via API Python?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)
 

Ekstrak Bagian Spesifik Dokumen via Python

Docx2Python menyediakan opsi untuk menyesuaikan format output, memungkinkan pengembang menyesuaikan hasil sesuai kebutuhan spesifik mereka. Perpustakaan Docx2Python yang bersifat open-source memberikan fungsi lengkap untuk mengekstrak bagian atau seksi tertentu dari dokumen Word DOCX dalam aplikasi Python. Pengembang dapat memilih untuk mengekstrak hanya bagian tertentu dari dokumen atau memformat output dengan cara tertentu hanya dengan beberapa baris kode.

Cara Mengekstrak Bagian Tertentu dari Dokumen Word via Perpustakaan Python?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)
 

Pertahankan Tata Letak Saat Mengonversi DOCX

Mempertahankan tata letak asli sebuah dokumen sangat penting, terutama ketika hubungan spasial antar elemen penting. Docx2Python mempertahankan tata letak ini dengan mengonversi dokumen ke format terstruktur yang mencerminkan desain aslinya. Ini memudahkan konversi konten DOCX ke format lain seperti HTML, PDF, atau Markdown sekaligus mempertahankan tampilan yang dimaksudkan.

Cara Mempertahankan Tata Letak Dokumen via API Python?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)
 
 Indonesia