Desarrolle aplicaciones para trabajar con archivos PDF a través de la biblioteca de Python

API de Python de código abierto capaz de dividir, fusionar, recortar y transformar las páginas de archivos PDF, agregar datos personalizados y contraseñas a PDF.

PyPDF2 es una biblioteca Python pura de código abierto que brinda la capacidad de trabajar con archivos PDF dentro de aplicaciones Python sin dependencias externas. La biblioteca ha incluido soporte para numerosas funciones importantes de PDF, como la combinación de varios archivos PDF, la extracción del contenido del archivo PDF, la rotación de páginas de archivos PDF en un ángulo, el escalado de páginas PDF, la transformación de páginas de archivos PDF, la extracción de imágenes de páginas PDF y mucho mas.

La biblioteca de programación de código abierto PyPDF2 es muy fácil de usar y el código fuente está bien documentado y es fácil de entender. La biblioteca permite a los desarrolladores leer y extraer metadatos de archivos PDF, como la cantidad de páginas, el autor, el creador, la hora de creación y última actualización, etc. La biblioteca también admite el cifrado y descifrado de archivos PDF con solo un par de líneas de código Python.

de un vistazo

Una descripción general de las características de PyPDF2.

Descripción de las características

Crea PDF
Cultivo
Transformar páginas PDF
Dividir archivos PDF
Combinar archivos PDF
Incrustación de hipervínculos
Insertar círculos
Agregar datos personalizados
Agregar formas
Compatibilidad con Unicode
incrustación de fuentes
Cifrar PDF
Imágenes incrustadas
Agregar contraseñas
Metadatos

PyPDF2

PyPDF2 admite el formato de archivo PDF, así como los formatos estándar de la industria para la exportación.

Lector

Escritor

TXT, HTML

PyPDF2

Independencia de la plataforma

PyPDF2 se prueba con Python 2.6 y superior.

Python 2.6 y superior

PyPDF2

Primeros pasos con PyPDF2

PyPDF2 no viene como parte de la biblioteca estándar de Python, por lo que deberá instalarlo usted mismo. La forma preferida de hacerlo es usar pip.

Instalar PyPDF2 a través de pip

 python -m pip install pypdf2

Extraer texto de PDF a través de Python

La biblioteca PyPDF2 ofrece la capacidad de extraer texto mediante programación de archivos PDF a través de Python. No es fácil recuperar datos de un archivo PDF porque la forma en que PDF almacena la información hace que sea difícil lograrlo. PyPDF2 facilita el trabajo de los desarrolladores al proporcionarles funciones integradas fáciles de usar para recuperar información. Pueden usar el método extractText() en el objeto de la página para obtener el contenido de texto de la página.

Extraer texto de PDF a través de Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Lectura de archivos PDF a través de Python

La biblioteca PyPDF2 proporciona la capacidad de extraer texto de forma programática de archivos PDF a través de Python. No es fácil recuperar datos de un archivo PDF porque la forma en que PDF almacena la información hace que sea difícil lograrlo. PyPDF2 facilita el trabajo de los desarrolladores al proporcionarles funciones integradas fáciles de usar para recuperar información. Pueden usar el método extractText() en el objeto de la página para obtener el contenido de texto de la página.

Lectura de archivos PDF a través de Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

Combinar o dividir documentos PDF

¿Alguna vez ha estado en una situación en la que necesitaba combinar dos o más archivos PDF en un solo documento? La organización a menudo requiere fusionar varios archivos PDF en un solo documento. La biblioteca PyPDF2 brinda la capacidad de combinar archivos PDF con solo un par de líneas de código Python. Los desarrolladores también pueden dividir fácilmente documentos PDF grandes en otros más pequeños según sus necesidades. Los desarrolladores pueden extraer fácilmente una parte específica de un libro PDF o dividirlo en varios PDF

Combinar archivos PDF a través de Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Extraer metadatos de archivos PDF

La biblioteca PyPDF2 ha incluido la funcionalidad para extraer metadatos de documentos PDF mediante el uso de un par de comandos de Python. Puede obtener fácilmente información sobre el autor, la aplicación creadora, la cantidad de páginas, el título del documento y las fechas de creación, etc. Puede extraer fácilmente los metadatos de los documentos PDF y usarlos según sus necesidades.

Extraiga metadatos de PDF a través de Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)