API Python ฟรีเพื่อสกัดข้อความ ตาราง และรูปภาพจากไฟล์ DOCX

ไลบรารี Python แบบเปิดแหล่งเพื่อสกัดข้อความ รูปภาพ ตาราง ส่วนหัวและส่วนท้าย หรือส่วนเฉพาะอื่น ๆ ของเอกสาร Word DOCX ภายในแอป Python

Docx2Python คืออะไร?

ในยุคดิจิทัลปัจจุบัน การประมวลผลและสกัดข้อมูลจากเอกสารอย่างมีประสิทธิภาพมีความสำคัญยิ่งกว่าที่เคยเป็นมา นักพัฒนาซอฟต์แวร์มักพบไฟล์ Microsoft Word DOCX ที่มีข้อมูลอันมีค่า แต่การพาร์สไฟล์เหล่านั้นอาจเป็นเรื่องท้าทาย Docx2Python เป็นไลบรารี Python ที่ช่วยให้นักพัฒนาซอฟต์แวร์สกัดข้อความ ตาราง รูปภาพ และเนื้อหาอื่น ๆ จากไฟล์ .docx ได้อย่างง่ายดาย แตกต่างจากไลบรารีการประมวลผลเอกสารอื่น ๆ Docx2Python ถูกออกแบบมาโดยเฉพาะเพื่อให้ได้ผลลัพธ์ที่สะอาด โครงสร้างชัดเจนและใช้งานง่าย ทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ต้องการพาร์สและวิเคราะห์เอกสาร Word อย่างโปรแกรมมิ่ง ไลบรารีนี้เป็นโอเพ่นซอร์ส หมายความว่ามีให้ทุกคนใช้งาน แก้ไข และแจกจ่ายได้ฟรี

Docx2Python เป็นเครื่องมือที่มีประสิทธิภาพออกแบบมาเพื่ออ่านไฟล์ DOCX และแปลงเนื้อหาเป็นโครงสร้างข้อมูล Python แบบซ้อนกัน เป็นไลบรารีโอเพ่นซอร์สที่แข็งแกร่งและยืดหยุ่น ทำให้การสกัดข้อมูลเชิงโครงสร้างจากไฟล์ DOCX ง่ายขึ้น ไลบรารีรองรับการพาร์สอย่างครบถ้วน การสร้างรายงานอัตโนมัติ การประมวลผลเอกสารขั้นสูง การส่งออกข้อมูลโครงสร้าง การรักษาเลย์เอาต์ ฯลฯ นักพัฒนาสามารถแปลงเนื้อหา DOCX ไปยังรูปแบบอื่น (เช่น HTML หรือ Markdown) พร้อมคงรูปลักษณ์ที่ตั้งใจไว้ การใช้โซลูชันโอเพ่นซอร์สเช่น Docx2Python ช่วยลดภาระงานด้วยตนเอง ส่งเสริมนวัตกรรม และสร้างแอปพลิเคชันที่แท้จริงเปลี่ยนวิธีที่เราติดต่อและวิเคราะห์ข้อมูลข้อความ

สรุป

ภาพรวมของฟีเจอร์ Docx2Python

Features Overview

สร้าง DOCX
แก้ไข DOCX
เพิ่มย่อหน้า
เพิ่มตาราง
แทรกรูปภาพ
จัดรูปแบบข้อความ
เพิ่มหัวข้อ
แบ่งหน้า
ตั้งค่าสี
จัดตำแหน่งข้อความ
สนับสนุนที่คั่นหน้า

Docx2Python

Docx2Python รองรับรูปแบบไฟล์บีบอัดที่นิยมตามรายการด้านล่าง

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

ความเป็นอิสระของแพลตฟอร์ม

Docx2Python ต้องการ Python 2.6 ขึ้นไปเท่านั้น

Python 2.6, 2.7, 3.3 หรือ 3.4
lxml >= 2.3.2

Docx2Python

เริ่มต้นกับ Docx2Python

Docx2Python โฮสต์บน PyPI ดังนั้นการติดตั้งจึงง่ายมาก สามารถติดตั้งโดยใช้ pip ด้วยคำสั่งต่อไปนี้

ติดตั้ง Docx2Python ด้วยคำสั่ง pip

pip install docx2python

สามารถติดตั้งด้วย easy_install ได้เช่นกัน แต่ไม่แนะนำ

การสกัดข้อความสำหรับเอกสาร Word

ไลบรารี Docx2Python แบบเปิดแหล่งทำให้การสกัดข้อความธรรมดาจากเอกสาร Word ภายในแอป Python ง่ายขึ้น โดยพาร์สทุกองค์ประกอบภายในไฟล์ DOCX อย่างครบถ้วน ไม่ว่าคุณต้องการสกัดข้อความธรรมดา ตารางรายละเอียด หรือโครงสร้างละเอียดของส่วนหัวและส่วนท้าย ไลบรารีนี้จัดการได้ทั้งหมด วิธีการพาร์สหลายระดับทำให้แน่ใจว่าแม้แต่ส่วนที่ซ้อนกันก็จะถูกจับได้อย่างแม่นยำในโครงสร้างข้อมูลผลลัพธ์

ทำอย่างไรสกัดข้อความจาก Word DOCX ด้วยโค้ด Python?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

การสกัดตารางและรูปภาพจากไฟล์ Word

หนึ่งในฟีเจอร์ที่ทรงพลังที่สุดของ Docx2Python คือความสามารถในการสกัดตารางจากไฟล์ Word .docx อย่างง่ายดาย ไลบรารีจัดการทั้งตารางแบบง่ายและตารางแบบซ้อนกัน ทำให้เหมาะสำหรับการประมวลผลเอกสารที่ซับซ้อน นอกจากนี้ นักพัฒนาซอฟต์แวร์ยังสามารถใช้ไลบรารีสกัดรูปภาพที่ฝังอยู่ในไฟล์ Microsoft Word .docx ซึ่งเป็นประโยชน์สำหรับแอปที่ต้องการประมวลผลหรือวิเคราะห์รูปภาพ

ทำอย่างไรสกัดตารางจากไฟล์ Word DOCX ด้วย Python API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

สกัดส่วนเฉพาะของเอกสารด้วย Python

Docx2Python มีตัวเลือกให้ปรับแต่งรูปแบบผลลัพธ์ ช่วยให้นักพัฒนาปรับผลลัพธ์ตามความต้องการเฉพาะของตน ไลบรารี Docx2Python แบบเปิดแหล่งให้ฟังก์ชันครบถ้วนสำหรับสกัดส่วนหรือส่วนที่เฉพาะของเอกสาร DOCX ภายในแอป Python นักพัฒนาสามารถเลือกสกัดเฉพาะส่วนที่ต้องการของเอกสาร หรือฟอร์แมตผลลัพธ์ในรูปแบบที่ต้องการด้วยเพียงไม่กี่บรรทัดโค้ด

ทำอย่างไรสกัดส่วนเฉพาะของเอกสาร Word ด้วยไลบรารี Python?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

รักษาเลย์เอาต์ขณะแปลง DOCX

การรักษาเลย์เอาต์ดั้งเดิมของเอกสารเป็นสิ่งสำคัญ โดยเฉพาะอย่างยิ่งเมื่อความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบมีความหมาย Docx2Python รักษาเลย์เอาต์นี้โดยแปลงเอกสารเป็นรูปแบบโครงสร้างที่สะท้อนการออกแบบดั้งเดิม ทำให้ง่ายต่อการแปลงเนื้อหา DOCX ไปยังรูปแบบอื่น เช่น HTML, PDF หรือ Markdown พร้อมคงรูปลักษณ์ที่ตั้งใจไว้

ทำอย่างไรรักษาเลย์เอาต์ของเอกสารด้วย Python API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)