สร้างและแปลง PDF ถึง Docx ผ่านห้องสมุด Python แหล่งเปิด
Python API สามารถสร้างและแปลงเอกสาร PDF เป็น DOCX, Parke และสร้างเค้าโครงหน้าใหม่หรือสร้างย่อหน้าผ่านห้องสมุด Python
มีห้องสมุด Python จํานวนมากสําหรับการสร้างและการประมวลผลเอกสาร PDF Python ถือว่าเป็นภาษาที่ดีที่สุดสําหรับการจัดการการประมวลผล PDF เพราะทําให้การพัฒนาทําได้ง่ายและรวดเร็ว pdf2doc เป็นห้องสมุด Python ที่มีประสิทธิภาพซึ่งช่วยให้โปรแกรมเมอร์คอมพิวเตอร์สร้างและแปลงเอกสาร PDF เป็นรูปแบบไฟล์ Word DOCX ได้อย่างง่ายดาย ห้องสมุดเป็นเรื่องง่ายมากที่จะจัดการและมี UI ง่ายที่ช่วยให้ผู้ใช้สามารถเข้าถึงได้อย่างง่ายดายและใช้คุณสมบัติต่างๆของห้องสมุด
หน้าเว็บ pdf2doc มีคุณลักษณะต่าง ๆ สําหรับการจัดการ PDF การดําเนินงานเช่นการเข้าถึงเอกสาร PDF แปลง PDF ไปยังรูปแบบไฟล์อื่น ๆ แยกและสร้างรูปแบบหน้าใหม่
เริ่มต้นด้วย pdf2doc
pdf2doc เป็นเรื่องง่ายมากที่จะติดตั้งวิธีที่ต้องการที่จะทําเช่นนั้นคือการใช้ pip โปรดใช้คําสั่งต่อไปนี้สําหรับการติดตั้งง่ายใด ๆ
ติดตั้ง pdf2doc ผ่าน pip
pip install pdf2docx
นอกจากนี้ยังสามารถติดตั้งด้วยตนเองได้ ดาวน์โหลดไฟล์รุ่นล่าสุดโดยตรงจากที่เก็บ GitHub
แปลง PDF ไฟล์เป็น Docx ผ่านทาง Python API
ห้องสมุด pdf2doc แบบโอเพ่นซอร์สสนับสนุนการแปลงไฟล์ PDF รูปแบบไฟล์ Docx ด้วยรหัส Python สองบรรทัด ห้องสมุดมีหลายวิธีในการจัดการการแปลง PDF คุณสามารถแปลงทุกหน้าของเอกสารหรือเลือกหน้าเว็บที่เฉพาะเจาะจงและแปลงเป็นไฟล์ Docx ห้องสมุดยังสนับสนุนการเข้าถึงและแปลงเอกสาร PDF ที่ป้องกันด้วยรหัสผ่านภายในแอปพลิเคชัน Python ห้องสมุดยังสนับสนุนการประมวลผลหลายซึ่งทํางานต่อเนื่อง PDF หน้าที่ระบุโดยเริ่มต้นและสิ้นสุดเท่านั้น
แปลงหน้าทั้งหมดของ PDF ผ่าน Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
แปลงหน้า PDF ที่ระบุเป็น Docx ผ่าน Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
แยกตารางจาก PDF ผ่าน Python API
บางครั้งเราจําเป็นต้องดึงข้อมูลเฉพาะบางส่วนจากไฟล์ PDF ห้องสมุด pdf2doc ฟรีช่วยให้ผู้ใช้สามารถดึงตารางจาก PDF ไฟล์โดยไม่ต้องพึ่งพาภายนอก เพื่อให้บรรลุงานนี้คุณต้องใช้ฟังก์ชั่น extract_tables() ตัวอย่างต่อไปนี้สามารถใช้เพื่อแยกตารางทั้งหมดจากไฟล์ PDF
สารสกัดจาก PDF ตารางผ่าน Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
แยกตารางทั้งหมดจาก PDF ผ่าน Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)