1. Товары
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

Создание и преобразование PDF в Docx через библиотеку Open Source Python

Бесплатный Python API, способный создавать и преобразовывать PDF-документы в DOCX, анализировать и воссоздавать макет страницы или заново создавать абзацы с помощью библиотеки Python.

Существует множество библиотек Python для создания и обработки PDF-документов. AS Python считается лучшим языком для обработки PDF-файлов, поскольку он упрощает и ускоряет разработку. pdf2docx — одна из таких мощных библиотек Python с открытым исходным кодом, которая позволяет программистам с легкостью создавать и преобразовывать PDF-документы в формат файла Word DOCX. Библиотека очень проста в обращении и имеет простой графический интерфейс, который позволяет пользователям легко получать доступ и использовать различные функции библиотеки.

Библиотека pdf2docx включает в себя различные функции для обработки операций с PDF, таких как доступ к документам PDF, преобразование PDF в файлы других форматов, анализ и повторное создание макета страницы, поддержка полей страницы, извлечение метаинформации, извлечение текста из файлов PDF, анализ и повторная обработка. -создание абзаца, вставка текста в PDF, поддержка стилей списка, анализ и повторное создание изображения, прозрачное изображение, анализ и повторное создание таблицы, объединенные ячейки, таблица с частично скрытыми границами, поддержка вложенных таблиц, анализ страниц с мульти- обработка и многое другое.

Previous Next

Начало с pdf2doc

pdf2doc очень легко установить, Предпочтительный способ сделать это - использовать pip, пожалуйста, используйте следующую команду для любой простой установки.

Установка pdf2doc через pip

 pip install pdf2docx 

Также возможна установка вручную; загрузите файлы последней версии непосредственно из репозитория GitHub.

Перевести PDF файла в Docx через Python API

Библиотека pdf2docx с открытым исходным кодом полностью поддерживает преобразование файлов PDF в формат файлов Docx всего за пару строк кода Python. Библиотека предоставляет несколько методов преобразования PDF. Вы можете преобразовать все страницы документа или выбрать определенные страницы и преобразовать их в файл Docx. Библиотека также поддерживает доступ и преобразование защищенных паролем PDF-документов внутри приложений Python. Библиотека также поддерживает многопроцессорную обработку, которая работает только для непрерывных страниц PDF, указанных только в начале и конце.

Перевести все страницы PDF через Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Перевести PDF страниц в Docx через Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Извлечение таблицы из PDF через Python API

Иногда нам нужно извлечь определенные данные из файла PDF. Бесплатная библиотека pdf2docx позволяет пользователям извлекать таблицы из файлов PDF без каких-либо внешних зависимостей. Для выполнения этой задачи вам нужно использовать функцию extract_tables(). Следующие примеры можно использовать для извлечения всех таблиц из файла PDF.

Извлечение PDF таблицы через Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Вычтите все таблицы из PDF через Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 Русский