Jana dan Urus Dokumen PDF melalui API Python Percuma
Pustaka Python Sumber Terbuka untuk mencipta dan menyesuaikan fail PDF, menggabungkan berbilang PDF & mengekstrak teks daripada PDF. Ia menggunakan Wkhtmltopdf Python Wrapper untuk Menukar HTML kepada PDF.
Python telah lama menjadi bahasa pilihan untuk pembangun perisian dan saintis data kerana kesederhanaan dan serba boleh. Salah satu daripada banyak kelebihan Python ialah ekosistem perpustakaan yang kaya yang merangkumi pelbagai domain. Salah satu perpustakaan tersebut ialah Python-PDFKit, alat yang berkuasa untuk manipulasi PDF dalam Python. Sama ada anda perlu menjana PDF, mengekstrak maklumat daripada yang sedia ada, atau menukar kandungan HTML kepada PDF, Python-PDFKit telah membantu anda. Pustaka ini sangat mudah dikendalikan dan membolehkan pengguna menjana PDF daripada HTML, URL atau rentetan HTML mentah dengan lancar.
Python-PDFKit ialah pembungkus Python untuk alat penukaran PDF yang popular, wkhtmltopdf, yang ditulis dalam C++. Dengan perpustakaan ini, pembangun boleh mengintegrasikan penjanaan dan manipulasi PDF dengan mudah ke dalam aplikasi Python mereka. Terdapat beberapa ciri penting bahagian perpustakaan untuk mengendalikan dokumen PDF melalui mencipta PDF daripada fail HTML, mencipta PDF daripada URL, menyesuaikan proses penjanaan PDF, menukar kandungan HTML kepada PDF secara langsung, menggabungkan berbilang dokumen PDF ke dalam satu fail, mengurus pendengaran PDF /footers, menetapkan saiz halaman PDF dan banyak lagi.
Pustaka Python-PDFKit menyediakan antara muka yang intuitif dan mudah untuk berinteraksi dengan alat baris arahan wkhtmltopdf yang mendasari, membolehkan pembangun perisian mencipta, menggabungkan dan menukar dokumen PDF dengan mudah. Pilihan konfigurasinya yang banyak membolehkan penalaan halus output PDF mengikut keperluan khusus. Dengan proses pemasangannya yang mudah dan penggunaan yang mudah, Python-PDFKit ialah tambahan yang berharga kepada mana-mana kit alat pembangun. Kesimpulannya, Python-PDFKit ialah perpustakaan yang mesti dicuba untuk mana-mana pembangun Python yang ingin menyelaraskan tugas penjanaan PDF dan menghasilkan dokumen yang kelihatan profesional dengan mudah.
Bermula dengan Python-PDFKit
Cara yang disyorkan dan paling mudah untuk memasang Python-PDFKit ialah menggunakan pip. Sila gunakan arahan berikut untuk pemasangan yang lancar.
Pasang Python-PDFKit melalui pip
pip install pdfkit
Anda juga boleh memasangnya secara manual; muat turun fail keluaran terkini terus daripada repositori GitHub.
Ekstrak Teks daripada PDF melalui Python
Pustaka Python-PDFKit menyediakan keupayaan untuk mengekstrak teks secara pemrograman daripada fail PDF melalui Python. Bukan mudah untuk mendapatkan semula data daripada fail PDF kerana cara PDF menyimpan maklumat hanya menyukarkan untuk mencapainya. Python-PDFKit memudahkan kerja pembangun dengan menyediakan fungsi terbina dalam yang mudah digunakan untuk mendapatkan maklumat. Mereka boleh menggunakan kaedah extractText() pada objek halaman untuk mendapatkan kandungan teks halaman.
Ekstrak Teks daripada PDF melalui Python
// extract text from a PDF
from Python-PDFKit import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Menjana Dokumen PDF melalui API Python
Pustaka Python-PDFKit sumber terbuka memudahkan pembangun perisian menjana fail PDF dengan mudah di dalam aplikasi Python mereka. Perpustakaan telah menyediakan sokongan untuk menjana PDF daripada pelbagai sumber. Pustaka membenarkan pembangun perisian membuat PDF daripada fail HTML, rentetan, atau bahkan URL. Ia juga mungkin untuk menambah imej, pengepala dan pengaki, menetapkan saiz halaman, menetapkan margin dan sebagainya di dalam aplikasi Python. Contoh berikut menunjukkan, bagaimana pembangun perisian boleh menjana fail PDF daripada pelbagai sumber dengan hanya beberapa baris kod Python.
Jana PDF daripada Fail HTML, String atau URL melalui Python API
import pdfkit
# Generate a PDF from an HTML file
pdfkit.from_file("source.html", "output.pdf")
# Generate a PDF from an HTML string
html_string = "Hello, PDFKit!
"
pdfkit.from_string(html_string, "output.pdf")
# Generate a PDF from a URL
pdfkit.from_url("https://example.com", "output.pdf")
Menyesuaikan Penjanaan PDF dalam Apl Python
Pustaka Python-PDFKit sumber terbuka membolehkan pembangun perisian menyesuaikan proses penjanaan PDF dalam aplikasi mereka sendiri. Pembangun perisian boleh menentukan pelbagai pilihan seperti saiz halaman, margin, pengepala/pengaki, menggabungkan berbilang dokumen PDFdan banyak lagi. Pilihan ini diserahkan kepada wkhtmltopdf sebagai argumen baris arahan. Contoh berikut menunjukkan cara pembangun perisian boleh menyesuaikan proses penjanaan PDF dalam aplikasi Python.
Bagaimana untuk Menyesuaikan Proses Penjanaan PDF melalui API Python?
import pdfkit
options = {
'page-size': 'A4',
'margin-top': '0mm',
'margin-right': '0mm',
'margin-bottom': '0mm',
'margin-left': '0mm',
}
pdfkit.from_file("source.html", "output.pdf", options=options)
Tukar HTML kepada PDF melalui Perpustakaan Python
Pustaka Python-PDFKit sumber terbuka ialah perpustakaan yang sangat mudah digunakan untuk memuatkan dan menukar dokumen HTML kepada fail PDF dalam aplikasi Python mereka. Selain menjana PDF, perpustakaan boleh menukar kandungan HTML kepada PDF secara langsung tanpa menyimpan fail perantaraan. Ini boleh berguna apabila berurusan dengan kandungan dinamik atau menjana PDF dengan segera. Di bawah ialah contoh mudah yang menunjukkan cara pengaturcara komputer boleh menukar dokumen HTML kepada fail PDF dalam aplikasi Python.
Bagaimana untuk Menukar Dokumen HTML kepada Fail PDF melalui Python?
import pdfkit
html_string = "Hello, PDFKit!
"
pdf_bytes = pdfkit.from_string(html_string, False)
# Save the PDF bytes to a file
with open("output.pdf", "wb") as f:
f.write(pdf_bytes)