พัฒนาแอพเพื่อทำงานกับ PDF ผ่าน Python Library
Open Source Python API ที่สามารถแยก ผสาน ครอบตัด และแปลงหน้าของไฟล์ PDF เพิ่มข้อมูลที่กำหนดเองและรหัสผ่านเป็น PDF
PyPDF2 เป็นไลบรารี Python แบบโอเพ่นซอร์สแบบโอเพ่นซอร์สที่ให้ความสามารถในการทำงานกับไฟล์ PDF ภายในแอปพลิเคชัน Python โดยไม่ต้องพึ่งพาภายนอก ไลบรารีได้รวมการรองรับคุณสมบัติ PDF ที่สำคัญมากมาย เช่น การรวมไฟล์ PDF หลายไฟล์ การแยกเนื้อหาของไฟล์ PDF การหมุนหน้าไฟล์ PDF ตามมุม การปรับขนาดของหน้า PDF การแปลงหน้าของไฟล์ PDF การดึงรูปภาพจากหน้า PDF และ อื่น ๆ อีกมากมาย.
ไลบรารีการเขียนโปรแกรมโอเพนซอร์ส PyPDF2 นั้นง่ายต่อการ ใช้งานมาก และซอร์สโค้ดได้รับการจัดทำเป็นเอกสารอย่างดีและเข้าใจง่าย ไลบรารีช่วยให้นักพัฒนาสามารถอ่านและดึงข้อมูลเมตาของไฟล์ PDF เช่น จำนวนหน้า ผู้แต่ง ผู้สร้าง เวลาที่สร้างและอัปเดตล่าสุด ฯลฯ ไลบรารียังรองรับการเข้ารหัสและถอดรหัสไฟล์ PDF ด้วยโค้ด Python เพียงไม่กี่บรรทัด
.
เริ่มต้นใช้งาน PyPDF2
PyPDF2 ไม่ได้เป็นส่วนหนึ่งของ Python Standard Library ดังนั้นคุณจะต้องติดตั้งด้วยตัวเอง วิธีที่แนะนำคือใช้ pip
ติดตั้ง PyPDF2 ผ่าน pip
python -m pip install pypdf2
แยกข้อความจาก PDF ผ่าน Python
ไลบรารี PyPDF2 ให้ความสามารถในการแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมผ่าน Python ไม่ใช่เรื่องง่ายที่จะดึงข้อมูลจากไฟล์ PDF เนื่องจากวิธีที่ PDF จัดเก็บข้อมูลนั้นทำให้ยากต่อการบรรลุผล PyPDF2 ทำให้นักพัฒนาทำงานได้ง่ายโดยให้ฟังก์ชันในตัวที่ใช้งานง่ายสำหรับการดึงข้อมูล พวกเขาสามารถใช้เมธอด extractText() บนออบเจ็กต์เพจเพื่อรับเนื้อหาข้อความของเพจ
แยกข้อความจาก PDF ผ่าน Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
การอ่านไฟล์ PDF ผ่าน Python
ไลบรารี PyPDF2 ให้ความสามารถในการแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมผ่าน Python ไม่ใช่เรื่องง่ายที่จะดึงข้อมูลจากไฟล์ PDF เนื่องจากวิธีที่ PDF จัดเก็บข้อมูลนั้นทำให้ยากต่อการบรรลุผล PyPDF2 ทำให้งานของนักพัฒนาง่ายขึ้นด้วยการจัดเตรียมฟังก์ชันในตัวที่ใช้งานง่ายสำหรับการดึงข้อมูล พวกเขาสามารถใช้เมธอด extractText() บนออบเจ็กต์เพจเพื่อรับเนื้อหาข้อความของเพจ
การอ่านไฟล์ PDF ผ่าน Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
ผสานหรือแยกเอกสาร PDF
คุณเคยอยู่ในสถานการณ์ที่คุณต้องการรวมไฟล์ PDF สองไฟล์ขึ้นไปเป็นเอกสารเดียวหรือไม่? องค์กรมักต้องการรวมไฟล์ PDF หลายไฟล์เป็นเอกสารเดียว ไลบรารี PyPDF2 ให้ความสามารถในการรวมไฟล์ PDF เข้ากับโค้ด Python เพียงไม่กี่บรรทัด นักพัฒนายังสามารถแยกเอกสาร PDF ขนาดใหญ่ออกเป็นเอกสารขนาดเล็กได้ตามความต้องการ นักพัฒนาสามารถแยกส่วนเฉพาะของหนังสือ PDF หรือแบ่งออกเป็น PDF หลาย ๆ ไฟล์ได้อย่างง่ายดาย
รวมไฟล์ PDF ผ่าน Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
แยกข้อมูลเมตาจากไฟล์ PDF
ไลบรารี PyPDF2 มีฟังก์ชันสำหรับดึงข้อมูลเมตาจากเอกสาร PDF โดยใช้คำสั่ง Python สองสามคำสั่ง คุณสามารถรับข้อมูลเกี่ยวกับผู้แต่ง แอพผู้สร้าง จำนวนหน้า ชื่อเอกสาร และวันที่สร้าง ฯลฯ ได้อย่างง่ายดาย คุณสามารถดึงข้อมูลเมตาของเอกสาร PDF และใช้งานได้ตามความต้องการของคุณ
แยกข้อมูลเมตาจาก PDF ผ่าน Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)