Open Source Python библиотека для конвертации PDF в Word DOCX

Ведущая бесплатная Python библиотека для конвертации PDF‑документов в редактируемые файлы MS Word DOCX. Сохраняет макет и включает текст, изображения, таблицы и другие элементы форматирования через Python API

Что такое библиотека PDF2Docx?

Необходимость конвертировать PDF‑документы в редактируемые файлы Word является обычным требованием в разработке программного обеспечения, будь то создание инструментов повышения продуктивности, систем управления документами или автоматизированных рабочих процессов. Open Source библиотека PDF2Docx, разработанная компанией Artifex Software, предоставляет надёжный и эффективный способ решения этой задачи. Эта библиотека упрощает процесс конвертации PDF‑файлов в Word‑документы, сохраняя форматирование, что делает её отличным ресурсом для разработчиков. Как Python‑библиотека, она использует простоту Python и обширную экосистему, делая её доступной для разработчиков, знакомых с этим языком. Библиотеку можно встраивать в различные Python‑фреймворки, такие как Flask или Django, чтобы добавить функцию PDF‑в‑Word в веб‑приложения.

PDF2Docx сосредоточена на сохранении оригинального макета PDF‑документа, обеспечивая, чтобы конвертированные Word‑файлы сохраняли свой дизайн, выравнивание текста и встроенную графику. Поддерживается указание диапазона страниц для конвертации, автоматизация конвертации нескольких PDF‑файлов пакетно и т.д. Разработчики могут управлять процессом конвертации, например, указывая страницы для конвертации, регулируя настройки изображений, задавая стили шрифтов и сопоставления для лучшего отображения текста или работы со встроенными шрифтами. Обратите внимание, что у библиотеки есть некоторые ограничения; например, она может не справиться идеально со сложными макетами PDF или сильно отформатированными PDF‑файлами. В целом, библиотека PDF2Docx — ценный инструмент для всех, кому необходимо конвертировать PDF‑документы в редактируемые DOCX‑файлы. Библиотека проста в использовании и предлагает широкий набор функций.

Обзор

Обзор возможностей PDF2Docx.

Features Overview

Конвертировать PDF в DOCX
Создать DOCX из PDF
Добавить параграфы
Добавить таблицу в DOCX
Вставить изображение в DOCX
Форматирование текста
Добавить заголовок
Поддержка разрывов страниц
Установить цвета
Выравнивание текста
Поддержка закладок

PDF2Docx

PDF2Docx поддерживает популярные форматы файлов сжатия, перечисленные ниже.

Reader

DOCX

Writer

TXT,DOCX

PDF2Docx

Независимость от платформы

PDF2Docx требует только Python 2.6 и выше.

Python 2.6 и выше.

PDF2Docx

Начало работы с PDF2Docx

PDF2Docx размещён на PyPI, поэтому его очень просто установить. Его можно установить с помощью pip, используя следующую команду.

Установить PDF2Docx через NPM

 pip install pdf2docx

Также его можно установить через easy_install, но это не рекомендуется.

Конвертировать PDF в Word DOCX через Python API

Open source библиотека PDF2Docx предоставляет полную функциональность для загрузки и конвертации документов Microsoft Word DOCX в PDF‑файлы внутри Python‑приложений. Библиотека упрощает процесс конвертации PDF‑документов в формат DOCX, сохраняя структуру, текст, изображения и макет оригинального документа. Ниже приведён простой пример кода, демонстрирующий, как разработчики могут использовать PDF2Docx для конвертации PDF‑файла в DOCX файл с помощью команд Python.

Как конвертировать PDF‑файл в Word DOCX файл с помощью библиотеки Python?

import pdf2docx

# Specify the path to your PDF file
pdf_file = "path/to/your/file.pdf"

# Specify the path to the output DOCX file
docx_file = "converted_document.docx"

# Create a PDF2Docx object
converter = pdf2docx.Converter()

# Convert the PDF to DOCX
converter.convert(pdf_file, docx_file)

print("PDF converted to DOCX successfully!")

Конвертировать конкретные страницы PDF в DOCX с помощью Python

Разработчики могут использовать библиотеку PDF2Docx для конвертации конкретной страницы PDF или диапазона страниц в Word‑документы, используя всего несколько строк кода на Python. Разработчики могут указать диапазон страниц для конвертации, что особенно полезно при работе с большими документами или когда требуется только определённая часть PDF. В следующем примере показано, как указать диапазон страниц и конвертировать их в Word DOCX документы внутри Python‑приложений.

Как указать диапазон страниц PDF и конвертировать в Word DOCX файл с помощью библиотеки Python?

cv = Converter("large_document.pdf")  

# Convert pages 2 to 5

cv.convert("output.docx", start=2, end=5)    
cv.close()  
print("Partial conversion completed!")

Сохранить макет и структуру документа

Open source PDF2Docx разработан для точного сохранения структуры оригинального PDF‑файла во время процесса конвертации. Он может анализировать и воссоздавать макет вашего PDF‑документа внутри DOCX‑файла. Это гарантирует, что таблицы и многоколоночные макеты будут воспроизведены в Word‑файле, изображения сохранят свои оригинальные позиции, сохраняется порядок абзацев или текстовых блоков и т.д. В следующем примере показано, как обеспечить сохранение структуры документа при конвертации PDF в Word DOCX файл внутри Python‑приложений.

Как сохранить структуру документа при конвертации PDF в DOCX с помощью Python?

from pdf2docx import Converter  

pdf_file = "sample.pdf"  
docx_file = "output.docx"  

cv = Converter(pdf_file)  
cv.convert(docx_file, start=0, end=None)  # Convert all pages  
cv.close()  
print("PDF converted to DOCX successfully!")

Настройка и экономически эффективная разработка

Библиотека PDF2Docx предоставляет разработчикам возможность тонко настраивать процесс конвертации, гарантируя, что результат соответствует конкретным требованиям. Такой уровень настройки особенно полезен для индивидуальных бизнес‑решений. Поскольку библиотека является open source, она устраняет лицензионные сборы, что делает её идеальной для проектов с ограниченным бюджетом. Разработчики могут внедрять функцию PDF‑в‑Word без инвестиций в дорогое стороннее программное обеспечение.