สร้างและแปลง PDF ถึง Docx ผ่านห้องสมุด Python แหล่งเปิด

Python API สามารถสร้างและแปลงเอกสาร PDF เป็น DOCX, Parke และสร้างเค้าโครงหน้าใหม่หรือสร้างย่อหน้าผ่านห้องสมุด Python

มีห้องสมุด Python จํานวนมากสําหรับการสร้างและการประมวลผลเอกสาร PDF Python ถือว่าเป็นภาษาที่ดีที่สุดสําหรับการจัดการการประมวลผล PDF เพราะทําให้การพัฒนาทําได้ง่ายและรวดเร็ว pdf2doc เป็นห้องสมุด Python ที่มีประสิทธิภาพซึ่งช่วยให้โปรแกรมเมอร์คอมพิวเตอร์สร้างและแปลงเอกสาร PDF เป็นรูปแบบไฟล์ Word DOCX ได้อย่างง่ายดาย ห้องสมุดเป็นเรื่องง่ายมากที่จะจัดการและมี UI ง่ายที่ช่วยให้ผู้ใช้สามารถเข้าถึงได้อย่างง่ายดายและใช้คุณสมบัติต่างๆของห้องสมุด

หน้าเว็บ pdf2doc มีคุณลักษณะต่าง ๆ สําหรับการจัดการ PDF การดําเนินงานเช่นการเข้าถึงเอกสาร PDF แปลง PDF ไปยังรูปแบบไฟล์อื่น ๆ แยกและสร้างรูปแบบหน้าใหม่

Previous Next

เริ่มต้นด้วย pdf2doc

pdf2doc เป็นเรื่องง่ายมากที่จะติดตั้งวิธีที่ต้องการที่จะทําเช่นนั้นคือการใช้ pip โปรดใช้คําสั่งต่อไปนี้สําหรับการติดตั้งง่ายใด ๆ

ติดตั้ง pdf2doc ผ่าน pip

 pip install pdf2docx 

นอกจากนี้ยังสามารถติดตั้งด้วยตนเองได้ ดาวน์โหลดไฟล์รุ่นล่าสุดโดยตรงจากที่เก็บ GitHub

แปลง PDF ไฟล์เป็น Docx ผ่านทาง Python API

ห้องสมุด pdf2doc แบบโอเพ่นซอร์สสนับสนุนการแปลงไฟล์ PDF รูปแบบไฟล์ Docx ด้วยรหัส Python สองบรรทัด ห้องสมุดมีหลายวิธีในการจัดการการแปลง PDF คุณสามารถแปลงทุกหน้าของเอกสารหรือเลือกหน้าเว็บที่เฉพาะเจาะจงและแปลงเป็นไฟล์ Docx ห้องสมุดยังสนับสนุนการเข้าถึงและแปลงเอกสาร PDF ที่ป้องกันด้วยรหัสผ่านภายในแอปพลิเคชัน Python ห้องสมุดยังสนับสนุนการประมวลผลหลายซึ่งทํางานต่อเนื่อง PDF หน้าที่ระบุโดยเริ่มต้นและสิ้นสุดเท่านั้น

แปลงหน้าทั้งหมดของ PDF ผ่าน Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

แปลงหน้า PDF ที่ระบุเป็น Docx ผ่าน Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

แยกตารางจาก PDF ผ่าน Python API

บางครั้งเราจําเป็นต้องดึงข้อมูลเฉพาะบางส่วนจากไฟล์ PDF ห้องสมุด pdf2doc ฟรีช่วยให้ผู้ใช้สามารถดึงตารางจาก PDF ไฟล์โดยไม่ต้องพึ่งพาภายนอก เพื่อให้บรรลุงานนี้คุณต้องใช้ฟังก์ชั่น extract_tables() ตัวอย่างต่อไปนี้สามารถใช้เพื่อแยกตารางทั้งหมดจากไฟล์ PDF

สารสกัดจาก PDF ตารางผ่าน Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

แยกตารางทั้งหมดจาก PDF ผ่าน Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 ไทย