Kembangkan Aplikasi untuk Bekerja dengan PDF melalui Perpustakaan Python
Open Source Python API yang mampu Memisahkan, Menggabungkan, Memotong, dan Mengubah halaman file PDF, menambahkan data & Sandi kustom ke PDF.
PyPDF2 adalah pustaka Python murni sumber terbuka yang menyediakan kemampuan untuk bekerja dengan file PDF di dalam aplikasi Python tanpa ketergantungan eksternal. Pustaka telah menyertakan dukungan untuk berbagai fitur PDF penting seperti menggabungkan beberapa file PDF, mengekstraksi konten file PDF, memutar halaman file PDF berdasarkan sudut, penskalaan halaman PDF, mengubah halaman file PDF, mengekstrak gambar dari halaman PDF dan masih banyak lagi.
Pustaka pemrograman sumber terbuka PyPDF2 sangat mudah untuk digunakan dan kode sumber didokumentasikan dengan baik dan mudah dipahami. Pustaka memungkinkan pengembang untuk membaca dan mengekstrak metadata File PDF seperti jumlah halaman, penulis, pembuat, waktu pembuatan dan pembaruan terakhir, dll. Pustaka ini juga mendukung enkripsi dan dekripsi file PDF hanya dengan beberapa baris kode Python.
.
Memulai dengan PyPDF2
PyPDF2 tidak datang sebagai bagian dari Pustaka Standar Python, jadi Anda harus menginstalnya sendiri. Cara yang lebih disukai untuk melakukannya adalah dengan menggunakan pip.
Instal PyPDF2 melalui pip
python -m pip install pypdf2
Ekstrak Teks dari PDF melalui Python
Pustaka PyPDF2 menyediakan kemampuan untuk mengekstrak teks dari file PDF secara terprogram melalui Python. Tidak mudah untuk mengambil data dari file PDF karena cara PDF menyimpan informasi hanya membuat sulit untuk mencapainya. PyPDF2 memudahkan pekerjaan pengembang dengan menyediakan fungsi bawaan yang mudah digunakan untuk mengambil informasi. Mereka dapat menggunakan metode extractText() pada objek halaman untuk mendapatkan konten teks halaman.
Ekstrak Teks dari PDF melalui Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Membaca File PDF melalui Python
Pustaka PyPDF2 menyediakan kemampuan untuk mengekstrak teks secara terprogram dari file PDF melalui Python. Tidak mudah untuk mengambil data dari file PDF karena cara PDF menyimpan informasi hanya membuat sulit untuk mencapainya. PyPDF2 memudahkan pekerjaan pengembang dengan menyediakan fungsi bawaan yang mudah digunakan untuk mengambil informasi. Mereka dapat menggunakan metode extractText() pada objek halaman untuk mendapatkan konten teks halaman.
Membaca File PDF melalui Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Gabungkan atau Pisahkan Dokumen PDF
Pernahkah Anda berada dalam situasi di mana Anda perlu menggabungkan dua atau lebih file PDF menjadi satu dokumen? Organisasi sering kali mengharuskan penggabungan beberapa file PDF ke dalam satu dokumen. Pustaka PyPDF2 menyediakan kemampuan untuk menggabungkan file PDF hanya dengan beberapa baris kode Python. Pengembang juga dapat dengan mudah membagi dokumen PDF besar menjadi lebih kecil sesuai dengan kebutuhan mereka. Pengembang dapat dengan mudah mengekstrak bagian tertentu dari buku PDF atau membaginya menjadi beberapa PDF
Gabungkan File PDF melalui Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Ekstrak Metadata dari File PDF
Pustaka PyPDF2 telah menyertakan fungsionalitas untuk mengekstrak Metadata dari dokumen PDF dengan menggunakan beberapa perintah Python. Anda dapat dengan mudah mendapatkan informasi tentang penulis, aplikasi pembuat, jumlah halaman, judul dokumen, dan tanggal pembuatan, dll. Anda dapat dengan mudah mengekstrak metadata dokumen PDF dan menggunakannya sesuai kebutuhan Anda.
Ekstrak Metadata dari PDF melalui Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)