1. 产品
  2.   PDF格式
  3.   Python
  4.   pdf2docx
 
  

通过开放源Python图书馆创建PDF至Docx

自由Python API可以通过Python图书馆创建并将PDF个文件转换为DOCX个、Pke和重新创建页面布局或重新创建段落。

有许多Python图书馆用于PDF个文档的创建和处理。 Python被认为是处理PDF个处理程序的最佳语言、因为它使开发变得非常容易和快速。 pdf2doc是一个如此强大的开放源代码Python库、使计算机程序员能够轻松地创建并将PDF个文档转换为WordDOCX格式。 图书馆很简单、有一个简单的UI、使用户能够容易访问和使用图书馆的各种特性。

Pdf2doc图书馆包括处理PDF个文件的各种特点、如将PDF个文件转换为其他文件格式、解析和重新处理页面、

Previous Next

从Pdf2开始

pdf2doc很容易安装、这样做的首选方法是使用管道、请使用下列命令进行任何易于安装。

通过管道安装pdf2doc

 pip install pdf2docx 

也可以手动安装; 直接从 GitHub 存储库下载最新版本文件。

通过Python转换PDF文件到Docx

开放源码pdf2doc库完全支持PDF个文件转换为Docx个文件格式、只有几行Python代码。 图书馆提供了几种处理PDF个转换的方法。 您可以转换文档的所有页面或选择一些特定页面并将其转换为Docx个文件。 图书馆还支持访问和转换在Python应用程序中保护的PDF个文档。 图书馆还支持多处理、只有开始和结束时指定的持续PDF页。

通过Python API转换PDF页

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

通过Python转换PDF页至Docx页

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

通过Python API提取表PDF

有时我们需要从PDF个文件中提取一些特定的数据。 免费的pdf2doc库允许用户从PDF个文件中提取表而不受任何外部依赖。 为了完成这个任务、您需要使用提取符()函数。 以下示例可用于从PDF个文件中提取所有表。

通过Python API提取PDF表

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

从PDF通过Python API提取所有表格

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 中国人