Generuj i zarządzaj dokumentami PDF za pośrednictwem bezpłatnego interfejsu API języka Python
Biblioteka języka Python typu open source do tworzenia i dostosowywania plików PDF, łączenia wielu plików PDF i wyodrębniania tekstu z plików PDF. Używa Wkhtmltopdf Python Wrapper do konwersji HTML na PDF.
Python od dawna jest językiem chętnie wybieranym przez programistów i analityków danych ze względu na swoją prostotę i wszechstronność. Jedną z wielu zalet Pythona jest bogaty ekosystem bibliotek obejmujących różne domeny. Jedną z takich bibliotek jest Python-PDFKit, potężne narzędzie do manipulacji plikami PDF w Pythonie. Niezależnie od tego, czy chcesz wygenerować pliki PDF, wyodrębnić informacje z istniejących, czy nawet przekonwertować zawartość HTML do formatu PDF, Python-PDFKit Ci pomoże. Biblioteka jest bardzo łatwa w obsłudze i umożliwia użytkownikom płynne generowanie plików PDF z HTML, URL lub surowych ciągów HTML.
Python-PDFKit to opakowanie Pythona dla popularnego narzędzia do konwersji plików PDF wkhtmltopdf, napisanego w języku C++. Dzięki tej bibliotece programiści mogą łatwo zintegrować generowanie i manipulowanie plikami PDF ze swoimi aplikacjami w języku Python. Biblioteka zawiera kilka ważnych funkcji umożliwiających obsługę dokumentów PDF poprzez tworzenie plików PDF z plików HTML, tworzenie plików PDF z adresów URL, dostosowywanie procesu generowania plików PDF, bezpośrednie konwertowanie treści HTML do formatu PDF, łączenie wielu dokumentów PDF w jeden plik, zarządzanie plikami PDF /footers, ustawianie rozmiaru strony PDF i wiele innych.
Biblioteka Python-PDFKit zapewnia intuicyjny i prosty interfejs umożliwiający interakcję z podstawowym narzędziem wiersza poleceń wkhtmltopdf, umożliwiając programistom bezproblemowe tworzenie, scalanie i konwertowanie dokumentów PDF. Liczne opcje konfiguracji umożliwiają precyzyjne dostrojenie wyjściowego pliku PDF zgodnie z konkretnymi wymaganiami. Dzięki łatwemu procesowi instalacji i prostemu użyciu Python-PDFKit jest cennym dodatkiem do zestawu narzędzi każdego programisty. Podsumowując, Python-PDFKit to biblioteka, którą musi wypróbować każdy programista Pythona, który chce usprawnić zadania generowania plików PDF i z łatwością tworzyć profesjonalnie wyglądające dokumenty.
Pierwsze kroki z Pythonem-PDFKit
Zalecanym i najłatwiejszym sposobem instalacji Python-PDFKit jest użycie pip. Użyj następującego polecenia, aby instalacja przebiegała bezproblemowo.
Zainstaluj Python-PDFKit przez pip
pip install pdfkit
Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.
Wyodrębnij tekst z pliku PDF za pomocą Pythona
Biblioteka Python-PDFKit umożliwia programowe wyodrębnianie tekstu z plików PDF za pomocą języka Python. Odzyskanie danych z pliku PDF nie jest łatwe, ponieważ sposób, w jaki pliki PDF przechowują informacje, utrudnia to osiągnięcie. Python-PDFKit ułatwia pracę programistom, udostępniając im łatwe w użyciu wbudowane funkcje wyszukiwania informacji. Mogą użyć metody ekstraktText() na obiekcie strony, aby uzyskać zawartość tekstową strony.
Wyodrębnij tekst z pliku PDF za pomocą Pythona
// extract text from a PDF
from Python-PDFKit import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Generowanie dokumentów PDF za pośrednictwem interfejsu API języka Python
Biblioteka Python-PDFKit o otwartym kodzie źródłowym ułatwia twórcom oprogramowania łatwe generowanie plików PDF w aplikacjach Python. Biblioteka zapewnia obsługę generowania plików PDF z różnych źródeł. Biblioteka umożliwia programistom tworzenie plików PDF z plików HTML, ciągów znaków, a nawet adresów URL. Możliwe jest również dodawanie obrazów, nagłówków i stopek, ustawianie rozmiaru strony, ustawianie marginesów i tak dalej w aplikacjach Pythona. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą generować pliki PDF z różnych źródeł za pomocą zaledwie kilku linijek kodu Pythona.
Wygeneruj plik PDF z pliku HTML, ciągu znaków lub adresu URL za pośrednictwem interfejsu API języka Python
import pdfkit
# Generate a PDF from an HTML file
pdfkit.from_file("source.html", "output.pdf")
# Generate a PDF from an HTML string
html_string = "Hello, PDFKit!
"
pdfkit.from_string(html_string, "output.pdf")
# Generate a PDF from a URL
pdfkit.from_url("https://example.com", "output.pdf")
Dostosowywanie generowania plików PDF w aplikacjach Pythona
Biblioteka Python-PDFKit o otwartym kodzie źródłowym umożliwia twórcom oprogramowania dostosowywanie procesu generowania plików PDF w ich własnych aplikacjach. Twórcy oprogramowania mogą określić różne opcje, takie jak rozmiar strony, marginesy, nagłówki/stopki, łączenie wielu dokumentów PDF i nie tylko. Opcje te są przekazywane do wkhtmltopdf jako argumenty wiersza poleceń. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą dostosować proces generowania plików PDF w aplikacjach Pythona.
Jak dostosować proces generowania plików PDF za pomocą interfejsu API języka Python?
import pdfkit
options = {
'page-size': 'A4',
'margin-top': '0mm',
'margin-right': '0mm',
'margin-bottom': '0mm',
'margin-left': '0mm',
}
pdfkit.from_file("source.html", "output.pdf", options=options)
Konwertuj HTML na PDF za pomocą biblioteki Pythona
Biblioteka Python-PDFKit o otwartym kodzie źródłowym to bardzo łatwa w użyciu biblioteka do ładowania i konwertowania dokumentów HTML na pliki PDF w aplikacjach Python. Oprócz generowania plików PDF biblioteka umożliwia bezpośrednią konwersję treści HTML do formatu PDF bez zapisywania pliku pośredniego. Może to być przydatne podczas pracy z dynamiczną zawartością lub generowania plików PDF na bieżąco. Poniżej znajduje się prosty przykład pokazujący, jak programiści komputerowi mogą konwertować dokumenty HTML na pliki PDF w aplikacjach Pythona.
Jak przekonwertować dokumenty HTML na pliki PDF za pomocą Pythona?
import pdfkit
html_string = "Hello, PDFKit!
"
pdf_bytes = pdfkit.from_string(html_string, False)
# Save the PDF bytes to a file
with open("output.pdf", "wb") as f:
f.write(pdf_bytes)