Створіть та перетворюйте PDF до Docx за допомогою бібліотеки Open Source Python

Безкоштовний Python API здатний створювати та конвертувати PDF документів на DOCX, Parke та відтворювати макет сторінки або відтворити абзацу за допомогою Python бібліотеки.

Існує багато бібліотек Python для створення та обробки документів PDF. AS Python вважається найкращою мовою для обробки PDF-файлів, оскільки вона робить розробку такою легкою та швидкою. pdf2docx — це одна з таких потужних бібліотек Python з відкритим вихідним кодом, яка дозволяє програмістам легко створювати та перетворювати документи PDF у формат Word DOCX. Бібліотека дуже проста в користуванні та має простий графічний інтерфейс, який дозволяє користувачам легко отримувати доступ і використовувати різні функції бібліотеки.

Бібліотека pdf2docx включає різні функції для обробки PDF-операцій, таких як доступ до PDF-документів, перетворення PDF в інші формати файлів, розбір і повторне створення макета сторінки, підтримка полів сторінки, вилучення метаінформації, вилучення тексту з PDF-файлів, аналіз і повторне -створення абзацу, вставлення тексту в PDF, підтримка стилів списку, аналіз і повторне створення зображення, прозоре зображення, аналіз і повторне створення таблиці, об’єднані комірки, таблиця з частково прихованими межами, підтримка вкладених таблиць, аналіз сторінок із кількома обробки та багато іншого.

З одного погляду

Огляд функцій pdf2doc.

Огляд функцій

Створити PDF
Перетворення PDF до DOCX
Відтворити макет сторінки
Підтримка стилів
Відтворити таблицю
Витяг тексту з PDF
Parke & Відтворити таблицю
Багатопроцесорна підтримка
Вбудовування шрифту
Перетворення вказаних сторінок
Прозоре зображення
Перетворення зашифрованого PDF

pdf2довідник

pdf2doc підтримує PDF форматів файлів, а також галузеві нестандартні формати для експорту.

читач

Письменник

TXT, HTML

pdf2довідник

Незалежність платформи

pdf2doc тестується з Python 3.8 і вище.

English, Українська, Français...

pdf2довідник

Початок роботи з pdf2doc

pdf2doc дуже легко встановити, Найкращий спосіб зробити це використовувати pip, будь ласка, використовуйте наступний командний ряд для будь-якої легкої установки.

Встановити pdf2doc через pip

 pip install pdf2docx

Також можлива установка вручну; завантажте файли останньої версії безпосередньо зі сховища GitHub.

Перетворення PDF Файл в Docx через Python API

Русский EnglishРусскийУкраїнськаPolskiItalianoEspañol汉语Bahasa Indonesiaहिन्दीPortuguês日本語DeutschFrançaisภาษาไทยελληνικά اللغة العربية У бібліотеці передбачено кілька способів обробки PDF перетворення. Ви можете конвертувати всі сторінки документа або вибрати деякі конкретні сторінки і конвертувати їх в Docx файл. Бібліотека також підтримує доступ та перетворення паролів, захищених PDF документами в додатках Python. Бібліотека також підтримує багатообробку, яка працює тільки для безперервних PDF сторінок, вказаних за допомогою запуску і закінчення тільки.

Перетворення всіх сторінок PDF через Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Перетворення Вказати PDF сторінок в Docx через Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Екстракт таблиці від PDF на Python API

Іноді потрібно вилучити певні дані з PDF файлу. Русский EnglishРусскийУкраїнськаPolskiItalianoEspañol汉语Bahasa Indonesiaहिन्दीPortuguês日本語DeutschFrançaisภาษาไทยελληνικά اللغة العربية Для досягнення поставленого завдання необхідно використовувати функцію екстракт_tables(). Наведені нижче приклади можуть бути використані для вилучення всіх таблиць з PDF файлу.

Екстракт PDF таблиці за допомогою Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Витягувати всі таблиці з PDF по Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)