Безкоштовний Python API для витягування тексту, таблиць, зображень з файлів DOCX

Бібліотека Python з відкритим кодом для витягування тексту, зображень, таблиць, верхніх та нижніх колонтитулів або будь‑яких інших конкретних частин документів Word DOCX у Python‑застосунках.

Що таке бібліотека Docx2Python?

У сучасну цифрову епоху ефективна обробка та витягування даних з документів стає важливішим, ніж будь‑коли. Розробники ПЗ часто стикаються з файлами Microsoft Word DOCX, що містять цінну інформацію, проте їх аналіз може бути складним. Docx2Python — це бібліотека Python, яка дозволяє розробникам легко витягувати текст, таблиці, зображення та інший вміст з файлів .docx. На відміну від інших бібліотек обробки документів, Docx2Python спеціально розроблена для надання чистого, структурованого вихідного результату, з яким зручно працювати. Це робить її відмінним вибором для розробників, яким потрібно програмно аналізувати та обробляти документи Word. Бібліотека є відкритим кодом, тобто вона вільно доступна для будь‑кого, хто хоче її використовувати, модифікувати та поширювати.

Docx2Python — потужний інструмент, призначений для читання файлів DOCX та перетворення їх вмісту у вкладені структури даних Python. Це надійна та гнучка бібліотека з відкритим кодом, яка спрощує вилучення структурованих даних із файлів DOCX. Бібліотека підтримує комплексний аналіз, автоматичне генерування звітів, розширену обробку документів, вихід структурованих даних, збереження макету тощо. Розробники можуть конвертувати вміст DOCX у інші формати (наприклад, HTML чи Markdown), зберігаючи заплановане оформлення. Використовуючи рішення з відкритим кодом, такі як Docx2Python, розробники можуть знизити ручне навантаження, сприяти інноваціям і створювати застосунки, які дійсно змінюють спосіб нашої взаємодії з текстовими даними.

Огляд

Огляд функцій Docx2Python.

Features Overview

Створити DOCX
Модифікувати DOCX
Додати абзаци
Додати таблицю
Вставити зображення
Форматування тексту
Додати заголовок
Розрив сторінки
Встановити кольори
Вирівнювання тексту
Підтримка закладок

Docx2Python

Docx2Python підтримує популярні формати стиснення файлів, перелічені нижче.

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

Платформна незалежність

Docx2Python вимагає лише Python 2.6 і вище.

Python 2.6, 2.7, 3.3, або 3.4
lxml >= 2.3.2

Docx2Python

Початок роботи з Docx2Python

Docx2Python розміщений на PyPI, тому його дуже просто встановити. Його можна встановити за допомогою pip, використовуючи наступну команду.

Встановити Docx2Python за допомогою команди pip

pip install docx2python

Його також можна встановити через easy_install, але це не рекомендується.

Витягнення тексту з документів Word

Бібліотека з відкритим кодом Docx2Python спрощує розробникам ПЗ витягування чистого тексту з документа Word у Python‑застосунках. Вона всебічно аналізує кожен елемент у файлі DOCX. Незалежно від того, чи потрібно витягти простий текст, детальні таблиці або складну структуру верхніх і нижніх колонтитулів, ця бібліотека справляється зі всім. Підхід багаторівневого аналізу забезпечує точне захоплення навіть вкладених елементів у вихідну структуру даних.

Як витягти текст з Word DOCX за допомогою коду Python?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Витягнення таблиць та зображень з файлу Word

Однією з найпотужніших можливостей Docx2Python є здатність легко витягувати таблиці з файлів Word .docx. Бібліотека працює як з простими, так і з вкладеними таблицями, що робить її ідеальною для обробки складних документів. Крім того, розробники можуть використовувати бібліотеку для витягування зображень, вбудованих у файли Microsoft Word .docx, що може бути корисним для застосунків, що потребують обробки або аналізу зображень.

Як витягти таблиці з файлів Word DOCX за допомогою Python API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

Витягнення конкретного розділу документів за допомогою Python

Docx2Python пропонує параметри налаштування формату виводу, дозволяючи розробникам адаптувати результати під свої конкретні потреби. Бібліотека з відкритим кодом Docx2Python забезпечує повний функціонал для витягування певної частини або розділу документів Word DOCX у Python‑застосунках. Розробники можуть вибрати витяг лише певних розділів документа або сформатувати вивід у потрібному вигляді, використовуючи всього кілька рядків коду.

Як витягти певну частину документа Word за допомогою бібліотеки Python?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

Збереження макету під час конвертації DOCX

Збереження оригінального макету документа є важливим, особливо коли важливі просторові взаємозв’язки між елементами. Docx2Python зберігає цей макет, конвертуючи документ у структурований формат, який відображає його початковий дизайн. Це спрощує конвертацію вмісту DOCX у інші формати, такі як HTML, PDF або Markdown, зберігаючи запланований вигляд.

Як зберегти макет документа за допомогою Python API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)