1. Produtos
  2.   PDF
  3.   Python
  4.   Pdfrw
 
  

Biblioteca Python de código aberto para conversão de arquivos PDF

A API Python gratuita permite que os desenvolvedores exportem, girem, mesclem e concatenem arquivos PDF, extraiam dados e elementos de PDFs.

pdfrw é uma biblioteca Python pura de código aberto que permite aos desenvolvedores de software ler e gravar arquivos PDF sem instalar nenhum software especial externo. A biblioteca de programação pdfrw é muito simples de usar e o código fonte é bem documentado, muito simples e fácil de entender. A biblioteca incluiu suporte adequado a Unicode para strings de texto em PDFs, bem como o analisador de PDF Python puro mais rápido.

A biblioteca pdfrw inclui suporte para várias operações importantes de PDF, como mesclar PDFs, modificar metadados, concatenar vários PDFs juntos, extrair imagens, imprimir PDF, girar páginas PDF, criar um novo PDF, adicionar uma imagem PDF com marca d'água e muito mais.

.

Previous Next

Introdução ao pdfrw

pdfrw requer Python 2.6, 2.7, 3.3, 3.4, 3.5 e 3.6. Você pode instalar o pdfrw usando pip. Por favor, use o seguinte comando para instalá-lo.

Instale o pdfrw via pip

 python -m pip install pdfrw  

Crie documentos PDF através da biblioteca Python

A biblioteca pdfrw fornece aos desenvolvedores de software a capacidade de criar documentos PDF Create dentro de seus próprios aplicativos Python com apenas algumas linhas de código. A biblioteca também oferece suporte para acessar e modificar arquivos PDF existentes. Você pode inserir facilmente novas páginas, bem como componentes gráficos ou elementos de texto no PDF existente. A biblioteca pdfrw fornece suporte para localizar as páginas em arquivos PDF que você lê e gravar um conjunto de páginas de volta em um novo arquivo PDF.

Crie e altere documentos PDF via Python

 // PDF Documents Creation 
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Lendo arquivos PDF via Python

A biblioteca pdfrw permite que os desenvolvedores de software acessem e leiam facilmente diferentes partes de documentos PDF dentro de aplicativos Python. Dá acesso fácil a todo o documento PDF. A biblioteca suporta a recuperação de informações de arquivos, tamanho e muito mais. Ele cria um atributo especial chamado páginas, que permite aos usuários listar todas as páginas de um documento PDF. Ele permite extrair um objeto de informações do documento que você pode usar para extrair informações como autor, título etc.

Acesse e leia arquivos PDF via Python

 // Reading PDF Files
  from pdfrw import pdfreader
  def get_pdf_info(path):
    pdf = pdfreader(path)
    print(pdf.keys())
    print(pdf.info)
    print(pdf.root.keys())
    print('pdf has {} pages'.format(len(pdf.pages)))
  if __name__ == '__main__':
    get_pdf_info('w9.pdf')

Adicionando ou modificando metadados

O pdfrw permite que desenvolvedores de software adicionem ou modifiquem metadados de arquivos PDF dentro de seus próprios aplicativos Python. Você pode alterar um único item de metadados em um PDF, gravar o resultado em um novo PDF, bem como incluir vários arquivos e concatená-los após adicionar alguns metadados sem sentido ao arquivo PDF de saída.

Modificar metadados PDF via Python

 // Modifying PDF Metadata
  import sys
  import os
  from pdfrw import PdfReader, PdfWriter
  inpfn, = sys.argv[1:]
  outfn = 'alter.' + os.path.basename(inpfn)
  trailer = PdfReader(inpfn)
  trailer.Info.Title = 'My New Title Goes Here'
  PdfWriter(outfn, trailer=trailer).write() 

Dividindo documentos PDF

O pdfrw permite que os desenvolvedores de software dividam de forma programática documentos de documentos PDF dentro de seus aplicativos. Um usuário pode precisar extrair uma parte específica de um livro PDF ou dividi-lo em vários PDFs em vez de armazená-los em um arquivo. É muito fácil com a biblioteca pdfrw, você só precisa fornecer um caminho de arquivo PDF de entrada, o número de páginas que deseja extrair e o caminho de saída.

Dividir arquivo PDF em vários PDFs via Python

 // Splitting PDF file into multiple pdfs
  from pdfrw import pdfreader, pdfwriter
  def split(path, number_of_pages, output):
    pdf_obj = pdfreader(path)
    total_pages = len(pdf_obj.pages)
    writer = pdfwriter()
    for page in range(number_of_pages):
      if page <= total_pages:
        writer.addpage(pdf_obj.pages[page])
    writer.write(output)
  if __name__ == '__main__':
    split('reportlab-sample.pdf', 10, 'subset.pdf')
 Português