Відкрита Python бібліотека для конвертації PDF у Word DOCX

Провідна безкоштовна Python бібліотека для конвертації PDF документів у редаговані файли MS Word DOCX. Вона зберігає макет і включає текст, зображення, таблиці та інші елементи форматування за допомогою Python API

Що таке бібліотека PDF2Docx?

У сучасну еру цифрової трансформації здатність автоматизувати обробку документів є конкурентною перевагою.Aspose.Words for Python via .NET – це складна та потужна бібліотека, призначена для розробників, які потребують створювати, редагувати та конвертувати документи програмно в середовищі Python. Використовуючи потужний .NET фреймворк, ця бібліотека надає високорівневий API, який дозволяє детально маніпулювати документами Microsoft Word (DOC, DOCX), PDF та іншими форматами без необхідності встановлення Microsoft Office.

Aspose.Words for Python via .NET – це всебічна бібліотека, яка поєднує простоту Python з потужними можливостями обробки документів .NET. Це крос‑платформенне рішення працює безперешкодно на Windows, Linux і macOS, що робить його ідеальним для хмарних додатків, настільного програмного забезпечення та корпоративних систем управління документами. Що вирізняє цю бібліотеку, – це надзвичайна точність формату та широкий набір функцій. Від базової маніпуляції текстом до розширених операцій mail merge і підсумовування документів за допомогою штучного інтелекту, Aspose.Words забезпечує все необхідне для створення складних робочих процесів автоматизації документів.

Огляд

Огляд можливостей PDF2Docx.

Features Overview

Конвертувати PDF у DOCX
Створити DOCX з PDF
Додати абзаци
Додати таблицю до DOCX
Вставити зображення до DOCX
Форматування тексту
Додати заголовок
Підтримка розриву сторінки
Встановити кольори
Вирівнювання тексту
Підтримка закладок

PDF2Docx

PDF2Docx підтримує популярні формати стиснення файлів, перелічені нижче.

Reader

DOCX

Writer

TXT,DOCX

PDF2Docx

Платформна незалежність

PDF2Docx потребує лише Python 2.6 і вище.

Python 2.6 і вище.

PDF2Docx

Початок роботи з PDF2Docx

PDF2Docx розміщений на PyPI, тому його дуже просто встановити. Його можна встановити за допомогою pip, використовуючи наступну команду.

Встановіть PDF2Docx через NPM

 pip install pdf2docx

Його також можна встановити за допомогою easy_install, проте це не рекомендовано.

Конвертуйте PDF у Word DOCX за допомогою Python API

Відкрита бібліотека PDF2Docx забезпечує повну функціональність для завантаження та конвертації документів Microsoft Word DOCX у PDF файли в Python‑додатках. Бібліотека спрощує процес конвертації PDF документів у формат DOCX, зберігаючи структуру, текст, зображення та макет оригінального документа. Ось базовий приклад коду, який демонструє, як розробники можуть використовувати PDF2Docx для конвертації PDF файлу у DOCX файл за допомогою команд Python.

Як конвертувати файл PDF у файл Word DOCX за допомогою Python бібліотеки?

import pdf2docx

# Specify the path to your PDF file
pdf_file = "path/to/your/file.pdf"

# Specify the path to the output DOCX file
docx_file = "converted_document.docx"

# Create a PDF2Docx object
converter = pdf2docx.Converter()

# Convert the PDF to DOCX
converter.convert(pdf_file, docx_file)

print("PDF converted to DOCX successfully!")

Конвертуйте конкретні сторінки PDF у DOCX за допомогою Python

Розробники можуть використовувати бібліотеку PDF2Docx для конвертації окремих сторінок PDF або їх діапазону у Word документи всього лише кількома рядками коду Python. Розробники можуть вказати діапазон сторінок для конвертації, що особливо корисно при роботі з великими документами або коли потрібна лише певна частина PDF. Наступний приклад показує, як вказати діапазон сторінок і конвертувати їх у Word DOCX документи в Python‑додатках.

Як вказати діапазон сторінок PDF та конвертувати у файл Word DOCX за допомогою Python бібліотеки?

cv = Converter("large_document.pdf")  

# Convert pages 2 to 5

cv.convert("output.docx", start=2, end=5)    
cv.close()  
print("Partial conversion completed!")

Збереження макету та структури документа

Відкрита бібліотека PDF2Docx розроблена так, щоб точно зберігати структуру оригінального PDF файлу під час процесу конвертації. Вона може розбирати та відтворювати макет вашого PDF документа у файлі DOCX. Це забезпечує копіювання таблиць та багатоколонкових макетів у Word файл, розміщення зображень у їхніх оригінальних позиціях, збереження потоку абзаців або текстових блоків тощо. Наступний приклад демонструє, як здійснити збереження структури документа під час конвертації PDF у файл Word DOCX у Python‑додатках.

Як зберегти структуру документа під час конвертації PDF у DOCX за допомогою Python?

from pdf2docx import Converter  

pdf_file = "sample.pdf"  
docx_file = "output.docx"  

cv = Converter(pdf_file)  
cv.convert(docx_file, start=0, end=None)  # Convert all pages  
cv.close()  
print("PDF converted to DOCX successfully!")

Налаштування та економічно ефективна розробка

Бібліотека PDF2Docx надає розробникам можливість тонко налаштувати процес конвертації, гарантуючи, що результат відповідає конкретним вимогам. Такий рівень налаштувань особливо корисний для індивідуальних бізнес‑рішень. Оскільки бібліотека є відкритою, вона виключає ліцензійні платежі, що робить її ідеальною для проектів з обмеженим бюджетом. Розробники можуть впроваджувати функціональність PDF‑to‑Word без інвестування в дорогі сторонні програми.