Tạo và quản lý tài liệu PDF thông qua API Python miễn phí
Thư viện Python mã nguồn mở để tạo và tùy chỉnh tệp PDF, hợp nhất nhiều tệp PDF và trích xuất văn bản từ PDF. Nó sử dụng Wkhtmltopdf Python Wrapper để chuyển đổi HTML sang PDF.
Python từ lâu đã trở thành ngôn ngữ được các nhà phát triển phần mềm và nhà khoa học dữ liệu sử dụng do tính đơn giản và linh hoạt của nó. Một trong nhiều lợi thế của Python là hệ sinh thái thư viện phong phú bao gồm nhiều lĩnh vực khác nhau. Một thư viện như vậy là Python-PDFKit, một công cụ mạnh mẽ để thao tác PDF trong Python. Cho dù bạn cần tạo tệp PDF, trích xuất thông tin từ những tệp hiện có hay thậm chí chuyển đổi nội dung HTML sang PDF, Python-PDFKit đều có thể giúp bạn. Thư viện này rất dễ xử lý và cho phép người dùng tạo tệp PDF từ HTML, URL hoặc chuỗi HTML thô một cách liền mạch.
Python-PDFKit là trình bao bọc Python cho công cụ chuyển đổi PDF phổ biến, wkhtmltopdf, được viết bằng C++. Với thư viện này, các nhà phát triển có thể dễ dàng tích hợp việc tạo và thao tác PDF vào các ứng dụng Python của họ. Có một số tính năng quan trọng của thư viện để xử lý tài liệu PDF thông qua việc tạo tệp PDF từ tệp HTML, tạo tệp PDF từ URL, tùy chỉnh quy trình tạo tệp PDF, chuyển đổi trực tiếp nội dung HTML sang PDF, hợp nhất nhiều tài liệu PDF thành một tệp duy nhất, quản lý phiên bản PDF /chân trang, đặt kích thước trang PDF và nhiều tính năng khác.
Thư viện Python-PDFKit cung cấp giao diện trực quan và đơn giản để tương tác với công cụ dòng lệnh wkhtmltopdf cơ bản, cho phép các nhà phát triển phần mềm tạo, hợp nhất và chuyển đổi tài liệu PDF một cách dễ dàng. Nhiều tùy chọn cấu hình của nó cho phép tinh chỉnh đầu ra PDF theo yêu cầu cụ thể. Với quá trình cài đặt dễ dàng và cách sử dụng đơn giản, Python-PDFKit là một bổ sung có giá trị cho bộ công cụ của bất kỳ nhà phát triển nào. Tóm lại, Python-PDFKit là một thư viện phải thử đối với bất kỳ nhà phát triển Python nào muốn hợp lý hóa các tác vụ tạo PDF và tạo ra các tài liệu có giao diện chuyên nghiệp một cách dễ dàng.
Bắt đầu với Python-PDFKit
Cách cài đặt Python-PDFKit được khuyến nghị và dễ dàng nhất là sử dụng pip. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ.
Cài đặt Python-PDFKit qua pip
pip install pdfkit
Bạn cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.
Trích xuất văn bản từ PDF qua Python
Thư viện Python-PDFKit cung cấp khả năng trích xuất văn bản từ tệp PDF thông qua Python theo chương trình. Việc lấy dữ liệu từ tệp PDF không phải là điều dễ dàng vì cách PDF lưu trữ thông tin khiến việc lấy dữ liệu trở nên khó khăn. Python-PDFKit giúp các nhà phát triển thực hiện công việc dễ dàng bằng cách cung cấp cho họ các hàm tích hợp dễ sử dụng để truy xuất thông tin. Họ có thể sử dụng phương thức extractText() trên đối tượng trang để lấy nội dung văn bản của trang.
Trích xuất văn bản từ PDF qua Python
// extract text from a PDF
from Python-PDFKit import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Tạo tài liệu PDF qua API Python
Thư viện Python-PDFKit mã nguồn mở giúp các nhà phát triển phần mềm dễ dàng tạo tệp PDF bên trong các ứng dụng Python của họ. Thư viện đã cung cấp hỗ trợ để tạo tệp PDF từ nhiều nguồn khác nhau. Thư viện cho phép các nhà phát triển phần mềm tạo tệp PDF từ tệp HTML, chuỗi hoặc thậm chí URL. Cũng có thể thêm hình ảnh, đầu trang và chân trang, đặt kích thước trang, đặt lề, v.v. bên trong các ứng dụng Python. Ví dụ sau đây minh họa cách các nhà phát triển phần mềm có thể tạo tệp PDF từ nhiều nguồn khác nhau chỉ bằng một vài dòng mã Python.
Tạo tệp PDF từ Tệp HTML, Chuỗi hoặc URL thông qua API Python
import pdfkit
# Generate a PDF from an HTML file
pdfkit.from_file("source.html", "output.pdf")
# Generate a PDF from an HTML string
html_string = "Hello, PDFKit!
"
pdfkit.from_string(html_string, "output.pdf")
# Generate a PDF from a URL
pdfkit.from_url("https://example.com", "output.pdf")
Tùy chỉnh tạo PDF bên trong ứng dụng Python
Thư viện Python-PDFKit mã nguồn mở cho phép các nhà phát triển phần mềm tùy chỉnh quy trình tạo PDF bên trong các ứng dụng của riêng họ. Các nhà phát triển phần mềm có thể chỉ định nhiều tùy chọn khác nhau như kích thước trang, lề, đầu trang/chân trang, hợp nhất nhiều tài liệu PDF, v.v. Các tùy chọn này được chuyển tới wkhtmltopdf dưới dạng đối số dòng lệnh. Ví dụ sau đây cho thấy cách các nhà phát triển phần mềm có thể tùy chỉnh quy trình tạo PDF bên trong các ứng dụng Python.
Làm cách nào để tùy chỉnh quy trình tạo PDF thông qua API Python?
import pdfkit
options = {
'page-size': 'A4',
'margin-top': '0mm',
'margin-right': '0mm',
'margin-bottom': '0mm',
'margin-left': '0mm',
}
pdfkit.from_file("source.html", "output.pdf", options=options)
Chuyển đổi HTML sang PDF qua Thư viện Python
Thư viện Python-PDFKit mã nguồn mở là thư viện rất dễ sử dụng để tải và chuyển đổi tài liệu HTML thành tệp PDF bên trong các ứng dụng Python của họ. Bên cạnh việc tạo tệp PDF, thư viện có thể chuyển đổi trực tiếp nội dung HTML sang PDF mà không cần lưu tệp trung gian. Điều này có thể hữu ích khi xử lý nội dung động hoặc tạo tệp PDF một cách nhanh chóng. Dưới đây là một ví dụ đơn giản cho thấy cách các lập trình viên máy tính có thể chuyển đổi tài liệu HTML thành tệp PDF bên trong các ứng dụng Python.
Làm cách nào để chuyển đổi tài liệu HTML thành tệp PDF qua Python?
import pdfkit
html_string = "Hello, PDFKit!
"
pdf_bytes = pdfkit.from_string(html_string, False)
# Save the PDF bytes to a file
with open("output.pdf", "wb") as f:
f.write(pdf_bytes)