Безплатен Python API за извличане на текст, таблици, изображения от DOCX файлове

Python библиотека с отворен код за извличане на текст, изображения, таблици, заглавки и колонтитули или други конкретни части от Word DOCX документи в Python приложения.

Какво е библиотеката Docx2Python?

В днешната дигитална ера ефективната обработка и извличане на данни от документи е по-важна от всякога. Софтуерните разработчици често се сблъскват с Microsoft Word DOCX файлове, които съдържат ценна информация, но тяхното парсиране може да бъде предизвикателство. Docx2Python е Python библиотека, която позволява на софтуерните разработчици да извличат текст, таблици, изображения и друго съдържание от .docx файлове с лекота. За разлика от други библиотеки за обработка на документи, Docx2Python е специално проектирана да предоставя чист и структуриран резултат, който е лесен за работа. Това я прави отличен избор за разработчици, които трябва да парсират и анализират Word документи програмирано. Библиотеката е с отворен код, което означава, че е безплатно достъпна за всеки за използване, модифициране и разпространение.

Docx2Python е мощен инструмент, създаден за четене на DOCX файлове и преобразуване на тяхното съдържание в вложени Python структури от данни. Това е стабилна и гъвкава библиотека с отворен код, която опростява извличането на структурираните данни от DOCX файлове. Библиотеката поддържа цялостно парсиране, автоматично генериране на отчети, напреднала обработка на документи, изход в структуриран вид, запазване на оформлението и др. Софтуерните разработчици могат да конвертират съдържанието на DOCX в други формати (като HTML или Markdown), като запазват предвидения външен вид. Приемайки решения с отворен код като Docx2Python, разработчиците могат да намалят ръчната работа, да насърчат иновациите и да създадат приложения, които наистина променят начина, по който взаимодействаме и анализираме текстови данни.

Накратко

Общ преглед на функциите на Docx2Python.

Features Overview

Създаване на DOCX
Модифициране на DOCX
Добавяне на параграфи
Добавяне на таблица
Вмъкване на изображение
Форматиране на текст
Добавяне на заглавие
Прекъсване на страница
Задаване на цветове
Подравняване на текста
Поддръжка на отметки

Docx2Python

Docx2Python поддържа популярните формати за компресия, изброени по-долу.

Reader

DOCX

Writer

TXT,DOCX

Docx2Python

Платформена независимост

Docx2Python изисква само Python 2.6 и нагоре

Python 2.6, 2.7, 3.3 или 3.4
lxml >= 2.3.2

Docx2Python

Започване с Docx2Python

Docx2Python се хоства в PyPI, така че е много лесно да се инсталира. Може да бъде инсталиран с pip чрез следната команда.

Инсталиране на Docx2Python чрез pip команда

pip install docx2python

Може също да се инсталира чрез easy_install, но не се препоръчва.

Извличане на текст за Word документи

Отворената библиотека Docx2Python улеснява софтуерните разработчици да извличат чист текст от Word документ в Python приложения. Тя обхватно парсира всеки елемент във файл DOCX. Независимо дали трябва да извлечете чист текст, подробни таблици или нюансираната структура на заглавките и колонтитулите, тази библиотека се справя с всичко. Многослойният подход за парсиране гарантира, че дори вложените елементи се улавят точно в изходната структура от данни.

Как да извлечем текст от Word DOCX чрез Python код?

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

Извличане на таблици и изображения от Word файл

Една от най-мощните функции на Docx2Python е способността й да извлича таблици от Word .docx файлове с лекота. Библиотеката поддържа както прости, така и вложени таблици, което я прави идеална за обработка на сложни документи. Освен това, софтуерните разработчици могат да използват библиотеката за извличане на изображения, вградени в Microsoft Word .docx файлове, което може да бъде полезно за приложения, изискващи обработка или анализ на изображения.

Как да извлечем таблици от Word DOCX файлове чрез Python API?

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)

Извличане на конкретен раздел от документи чрез Python

Docx2Python предоставя опции за персонализиране на изходния формат, позволявайки на разработчиците да адаптират резултатите според специфичните им нужди. Отворената библиотека Docx2Python осигурява пълна функционалност за извличане на конкретна част или раздел от Word DOCX документи в Python приложения. Разработчиците могат да изберат да извлекат само определени секции от документ или да форматират изхода по определен начин с няколко реда код.

Как да извлечем конкретна част от Word документ чрез Python библиотека?

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)

Запазване на оформлението при конвертиране на DOCX

Запазването на оригиналното оформление на документ е от съществено значение, особено когато пространствените взаимоотношения между елементите са важни. Docx2Python запазва това оформление, като конвертира документа в структуриран формат, който отразява оригиналния му дизайн. Това улеснява конвертирането на DOCX съдържание към други формати като HTML, PDF или Markdown, като се запазва предвиденият вид.

Как да запазим оформлението на документа чрез Python API?

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)