พัฒนาแอพเพื่อทำงานกับ PDF ผ่าน Python Library

Open Source Python API ที่สามารถแยก ผสาน ครอบตัด และแปลงหน้าของไฟล์ PDF เพิ่มข้อมูลที่กำหนดเองและรหัสผ่านเป็น PDF

PyPDF2 เป็นไลบรารี Python แบบโอเพ่นซอร์สแบบโอเพ่นซอร์สที่ให้ความสามารถในการทำงานกับไฟล์ PDF ภายในแอปพลิเคชัน Python โดยไม่ต้องพึ่งพาภายนอก ไลบรารีได้รวมการรองรับคุณสมบัติ PDF ที่สำคัญมากมาย เช่น การรวมไฟล์ PDF หลายไฟล์ การแยกเนื้อหาของไฟล์ PDF การหมุนหน้าไฟล์ PDF ตามมุม การปรับขนาดของหน้า PDF การแปลงหน้าของไฟล์ PDF การดึงรูปภาพจากหน้า PDF และ อื่น ๆ อีกมากมาย.

ไลบรารีการเขียนโปรแกรมโอเพนซอร์ส PyPDF2 นั้นง่ายต่อการ ใช้งานมาก และซอร์สโค้ดได้รับการจัดทำเป็นเอกสารอย่างดีและเข้าใจง่าย ไลบรารีช่วยให้นักพัฒนาสามารถอ่านและดึงข้อมูลเมตาของไฟล์ PDF เช่น จำนวนหน้า ผู้แต่ง ผู้สร้าง เวลาที่สร้างและอัปเดตล่าสุด ฯลฯ ไลบรารียังรองรับการเข้ารหัสและถอดรหัสไฟล์ PDF ด้วยโค้ด Python เพียงไม่กี่บรรทัด

.

Previous Next

เริ่มต้นใช้งาน PyPDF2

PyPDF2 ไม่ได้เป็นส่วนหนึ่งของ Python Standard Library ดังนั้นคุณจะต้องติดตั้งด้วยตัวเอง วิธีที่แนะนำคือใช้ pip

ติดตั้ง PyPDF2  ผ่าน pip

 python -m pip install pypdf2  

แยกข้อความจาก PDF ผ่าน Python

ไลบรารี PyPDF2 ให้ความสามารถในการแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมผ่าน Python ไม่ใช่เรื่องง่ายที่จะดึงข้อมูลจากไฟล์ PDF เนื่องจากวิธีที่ PDF จัดเก็บข้อมูลนั้นทำให้ยากต่อการบรรลุผล PyPDF2 ทำให้นักพัฒนาทำงานได้ง่ายโดยให้ฟังก์ชันในตัวที่ใช้งานง่ายสำหรับการดึงข้อมูล พวกเขาสามารถใช้เมธอด extractText() บนออบเจ็กต์เพจเพื่อรับเนื้อหาข้อความของเพจ

แยกข้อความจาก PDF ผ่าน Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

การอ่านไฟล์ PDF ผ่าน Python

ไลบรารี PyPDF2 ให้ความสามารถในการแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมผ่าน Python ไม่ใช่เรื่องง่ายที่จะดึงข้อมูลจากไฟล์ PDF เนื่องจากวิธีที่ PDF จัดเก็บข้อมูลนั้นทำให้ยากต่อการบรรลุผล PyPDF2 ทำให้งานของนักพัฒนาง่ายขึ้นด้วยการจัดเตรียมฟังก์ชันในตัวที่ใช้งานง่ายสำหรับการดึงข้อมูล พวกเขาสามารถใช้เมธอด extractText() บนออบเจ็กต์เพจเพื่อรับเนื้อหาข้อความของเพจ

การอ่านไฟล์ PDF ผ่าน Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

ผสานหรือแยกเอกสาร PDF

คุณเคยอยู่ในสถานการณ์ที่คุณต้องการรวมไฟล์ PDF สองไฟล์ขึ้นไปเป็นเอกสารเดียวหรือไม่? องค์กรมักต้องการรวมไฟล์ PDF หลายไฟล์เป็นเอกสารเดียว ไลบรารี PyPDF2 ให้ความสามารถในการรวมไฟล์ PDF เข้ากับโค้ด Python เพียงไม่กี่บรรทัด นักพัฒนายังสามารถแยกเอกสาร PDF ขนาดใหญ่ออกเป็นเอกสารขนาดเล็กได้ตามความต้องการ นักพัฒนาสามารถแยกส่วนเฉพาะของหนังสือ PDF หรือแบ่งออกเป็น PDF หลาย ๆ ไฟล์ได้อย่างง่ายดาย

รวมไฟล์ PDF ผ่าน Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

แยกข้อมูลเมตาจากไฟล์ PDF

ไลบรารี PyPDF2 มีฟังก์ชันสำหรับดึงข้อมูลเมตาจากเอกสาร PDF โดยใช้คำสั่ง Python สองสามคำสั่ง คุณสามารถรับข้อมูลเกี่ยวกับผู้แต่ง แอพผู้สร้าง จำนวนหน้า ชื่อเอกสาร และวันที่สร้าง ฯลฯ ได้อย่างง่ายดาย คุณสามารถดึงข้อมูลเมตาของเอกสาร PDF และใช้งานได้ตามความต้องการของคุณ

 

แยกข้อมูลเมตาจาก PDF ผ่าน Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 ไทย