1. Productos
  2.   PDF
  3.   Python
  4.   Pdfrw
 
  

Biblioteca Python de código abierto para convertir archivos PDF

La API gratuita de Python permite a los desarrolladores exportar, rotar, fusionar y concatenar archivos PDF, extraer datos y elementos de archivos PDF.

pdfrw es una biblioteca Python pura de código abierto que permite a los desarrolladores de software leer y escribir archivos PDF sin instalar ningún software especial externo. La biblioteca de programación pdfrw es muy simple de usar y el código fuente está bien documentado, es muy simple y fácil de entender. La biblioteca ha incluido compatibilidad adecuada con Unicode para cadenas de texto en archivos PDF, así como el analizador de PDF de Python puro más rápido.

La biblioteca pdfrw incluye compatibilidad con varias operaciones importantes de PDF, como la combinación de PDF, la modificación de metadatos, la concatenación de varios PDF, la extracción de imágenes, la impresión de PDF, la rotación de páginas PDF, la creación de un nuevo PDF, la adición de una imagen PDF con marca de agua y muchas más.

.

Previous Next

Primeros pasos con pdfrw

pdfrw requiere Python 2.6, 2.7, 3.3, 3.4, 3.5 y 3.6. Puede instalar pdfrw usando pip. Utilice el siguiente comando para instalarlo.

Instalar pdfrw a través de pip

 python -m pip install pdfrw  

Crear documentos PDF a través de la biblioteca de Python

La biblioteca pdfrw brinda a los desarrolladores de software la capacidad de crear documentos Create PDF dentro de sus propias aplicaciones de Python con solo un par de líneas de código. La biblioteca también brinda soporte para acceder y modificar archivos PDF existentes. Puede insertar fácilmente nuevas páginas, así como componentes gráficos o elementos de texto en el PDF existente. La biblioteca pdfrw brinda soporte para encontrar las páginas en los archivos PDF que lee y para escribir un conjunto de páginas en un nuevo archivo PDF.

Crear y modificar documentos PDF a través de Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Lectura de archivos PDF a través de Python

La biblioteca pdfrw brinda a los desarrolladores de software acceder y leer fácilmente diferentes partes de documentos PDF dentro de las aplicaciones de Python. Da fácil acceso a todo el documento PDF. La biblioteca admite la recuperación de información de archivos, tamaño y más. Crea un atributo especial llamado páginas, que permite a los usuarios enumerar todas las páginas de un documento PDF. Le permite extraer un objeto de información del documento que puede usar para extraer información como autor, título, etc.

Acceda y lea archivos PDF a través de Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Agregar o modificar metadatos

pdfrw permite a los desarrolladores de software agregar o modificar metadatos de archivos PDF dentro de sus propias aplicaciones de Python. Puede modificar un solo elemento de metadatos en un PDF, escribir el resultado en un nuevo PDF y puede incluir varios archivos y concatenarlos después de agregar algunos metadatos sin sentido al archivo PDF de salida.

Modificar metadatos de PDF a través de Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

División de documentos PDF

pdfrw permite a los desarrolladores de software dividir documentos PDF mediante programación dentro de sus aplicaciones. Un usuario puede necesitar extraer una parte específica de un libro PDF o dividirlo en varios PDF en lugar de almacenarlos en un solo archivo. Es muy fácil con la biblioteca pdfrw, solo necesita proporcionar una ruta de archivo PDF de entrada, la cantidad de páginas que desea extraer y la ruta de salida.

Dividir archivo PDF en varios archivos PDF a través de Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Español