Genere y administre documentos PDF a través de la API gratuita de Python

Biblioteca Python de código abierto para crear y personalizar archivos PDF, fusionar varios archivos PDF y extraer texto de PDF. Utiliza Wkhtmltopdf Python Wrapper para convertir HTML a PDF.

Python ha sido durante mucho tiempo el lenguaje de referencia para los desarrolladores de software y científicos de datos debido a su simplicidad y versatilidad. Una de las muchas ventajas de Python es su rico ecosistema de bibliotecas que cubren varios dominios. Una de esas bibliotecas es Python-PDFKit, una poderosa herramienta para la manipulación de PDF en Python. Ya sea que necesite generar archivos PDF, extraer información de archivos existentes o incluso convertir contenido HTML a PDF, Python-PDFKit lo tiene cubierto. La biblioteca es muy fácil de manejar y permite a los usuarios generar archivos PDF a partir de HTML, URL o cadenas HTML sin formato sin problemas.

Python-PDFKit es un contenedor de Python para la popular herramienta de conversión de PDF, wkhtmltopdf, que está escrita en C++. Con esta biblioteca, los desarrolladores pueden integrar fácilmente la generación y manipulación de PDF en sus aplicaciones Python. Hay varias características importantes que forman parte de la biblioteca para manejar documentos PDF mediante la creación de archivos PDF a partir de archivos HTML, la creación de archivos PDF a partir de URL, la personalización del proceso de generación de PDF, la conversión de contenido HTML a PDF directamente, la combinación de varios documentos PDF en un solo archivo y la administración de archivos PDF. /footers, configurar el tamaño de la página PDF y mucho más.

La biblioteca Python-PDFKit proporciona una interfaz intuitiva y sencilla para interactuar con la herramienta de línea de comandos subyacente wkhtmltopdf, lo que permite a los desarrolladores de software crear, fusionar y convertir documentos PDF sin esfuerzo. Sus numerosas opciones de configuración permiten ajustar la salida del PDF según requisitos específicos. Con su sencillo proceso de instalación y uso sencillo, Python-PDFKit es una valiosa adición al conjunto de herramientas de cualquier desarrollador. En conclusión, Python-PDFKit es una biblioteca que cualquier desarrollador de Python debe probar y busca optimizar las tareas de generación de PDF y producir documentos de aspecto profesional con facilidad.

De un vistazo

Una descripción general de las características de Python-PDFKit.

Descripción de las características

Crear PDF
Recortar PDF
Convertir HTML a PDF
Dividir archivos PDF
Combinar archivos PDF
Incrustar hipervínculos
Insertar círculos
Añadir datos personalizados
Agregar formas
Soporte Unicode
Incrustación de fuentes
Cifrar PDF
Incrustar imágenes
Agregar contraseñas
Metadatos

Python-PDFKit

Python-PDFKit admite el formato de archivo PDF, así como los formatos estándar de la industria para exportación.

Lector

Escritor

TXT, HTML

Python-PDFKit

Independencia de plataforma

Python-PDFKit se prueba con Python 2.6 y superior.

Python 2.6 y superior

Python-PDFKit

Comenzando con Python-PDFKit

La forma más sencilla y recomendada de instalar Python-PDFKit es mediante pip. Utilice el siguiente comando para una instalación sin problemas.

Instalar Python-PDFKit mediante pip

 pip install pdfkit

También puedes instalarlo manualmente; descargue los archivos de la última versión directamente desde el repositorio GitHub.

Extraer texto de PDF mediante Python

La biblioteca Python-PDFKit proporciona capacidad para extraer texto de archivos PDF mediante programación a través de Python. No es fácil recuperar datos de un archivo PDF porque la forma en que el PDF almacena la información hace que sea difícil lograrlo. Python-PDFKit facilita el trabajo de los desarrolladores al proporcionarles funciones integradas fáciles de usar para recuperar información. Pueden usar el método extractText() en el objeto de la página para obtener el contenido de texto de la página.

Extraer texto de PDF mediante Python

 // extract text from a PDF
  from Python-PDFKit import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Generación de documentos PDF a través de la API de Python

La biblioteca Python-PDFKit de código abierto facilita a los desarrolladores de software generar archivos PDF con facilidad dentro de sus aplicaciones Python. La biblioteca ha brindado soporte para generar archivos PDF de varias fuentes. La biblioteca permite a los desarrolladores de software crear archivos PDF a partir de archivos HTML, cadenas o incluso URL. También es posible agregar imágenes, encabezados y pies de página, establecer el tamaño de la página, establecer márgenes, etc. dentro de las aplicaciones Python. El siguiente ejemplo demuestra cómo los desarrolladores de software pueden generar archivos PDF de varias fuentes con solo un par de líneas de código Python.

Genere un PDF a partir de un archivo HTML, cadena o URL mediante la API de Python

import pdfkit

# Generate a PDF from an HTML file
pdfkit.from_file("source.html", "output.pdf")

# Generate a PDF from an HTML string
html_string = "Hello, PDFKit!"
pdfkit.from_string(html_string, "output.pdf")

# Generate a PDF from a URL
pdfkit.from_url("https://example.com", "output.pdf")

Personalizar la generación de PDF dentro de aplicaciones Python

La biblioteca Python-PDFKit de código abierto permite a los desarrolladores de software personalizar el proceso de generación de PDF dentro de sus propias aplicaciones. Los desarrolladores de software pueden especificar varias opciones, como tamaño de página, márgenes, encabezados/pies de página, fusionar varios documentos PDF y más. Estas opciones se pasan a wkhtmltopdf como argumentos de línea de comandos. El siguiente ejemplo muestra cómo los desarrolladores de software pueden personalizar el proceso de generación de PDF dentro de aplicaciones Python.

¿Cómo personalizar el proceso de generación de PDF a través de la API de Python?

 import pdfkit

options = {
    'page-size': 'A4',
    'margin-top': '0mm',
    'margin-right': '0mm',
    'margin-bottom': '0mm',
    'margin-left': '0mm',
}

pdfkit.from_file("source.html", "output.pdf", options=options)

Convertir HTML a PDF mediante la biblioteca Python

La biblioteca Python-PDFKit de código abierto es una biblioteca muy fácil de usar para cargar y convertir documentos HTML a archivos PDF dentro de sus aplicaciones Python. Además de generar archivos PDF, la biblioteca puede convertir contenido HTML a PDF directamente sin guardar un archivo intermedio. Esto puede resultar útil cuando se trata de contenido dinámico o se generan archivos PDF sobre la marcha. A continuación se muestra un ejemplo sencillo que muestra cómo los programadores informáticos pueden convertir documentos HTML en archivos PDF dentro de aplicaciones Python.

¿Cómo convertir documentos HTML a archivos PDF mediante Python?

import pdfkit

html_string = "Hello, PDFKit!"
pdf_bytes = pdfkit.from_string(html_string, False)

# Save the PDF bytes to a file
with open("output.pdf", "wb") as f:
    f.write(pdf_bytes)