1. Produtos
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

Extraia informações de PDFs por meio da biblioteca Python gratuita

API Python gratuita que permite aos desenvolvedores extrair informações de documentos PDF e converter PDF em outros formatos e realizar análise automática de layout.

PDFMiner é uma biblioteca Python de código aberto muito fácil de usar para processar arquivos PDF sem quaisquer outras dependências. PDFMine.six fork mantido pela comunidade da biblioteca PDFMiner original. A biblioteca fornece recursos muito poderosos para extrair informações de documentos PDF. Ele fornece um utilitário de comando para não programadores e uma interface API para programadores. Um poderoso conversor de PDF também faz parte da biblioteca que ajuda os usuários a transformar arquivos PDF em outros formatos de texto, como HTML.

O PDFMiner é uma biblioteca Python pura que pode facilmente extrair todos os textos de um arquivo PDF que são renderizados programaticamente. A grande habilidade é que ele também extrai os locais correspondentes, nomes e tamanhos de fontes e direção de escrita (horizontal ou vertical) para cada segmento de texto. Ele suporta a especificação PDF-1.7 e fornece suporte para extração de documentos PDF protegidos por senha. A biblioteca incluiu vários outros recursos importantes, como análise, análise e conversão de documentos PDF, extração de conteúdo como HTML ou hOCR, suporte para scripts de escrita vertical, suporte para criptografia RC4 e AES, extração de índice, extração de conteúdo marcado, layout automático análise e assim por diante.

Previous Next

Introdução ao PDFMiner

PDFMiner requer Python 3.6 e superior. Você pode instalar o PDFMiner usando pip. Por favor, use o seguinte comando para instalá-lo.

Instale o PDFMiner via pip

 pip install pdfminer 

Você também pode baixar a biblioteca compartilhada compilada do repositório GitHub e instalá-la.

Extrair texto de arquivo PDF via Python

A biblioteca de código aberto Pdfminer.six oferece aos desenvolvedores de software a capacidade de extrair texto de um arquivo PDF com apenas algumas linhas de código Python. A biblioteca se concentra em obter e analisar dados de texto e depois extrair o texto de uma página diretamente do código-fonte do PDF. A biblioteca também permite que os desenvolvedores extraiam imagens (JPG, JBIG2, Bitmaps) de um arquivo PDF. Também é possível extrair o nome da fonte ou o tamanho de cada caractere individual. Os exemplos a seguir mostram como extrair o texto de um arquivo PDF e imprimi-lo na tela.

Abra e manipule documentos PDF via Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Converter arquivo PDF para hOCR via Python API

hOCR é um padrão aberto de representação de dados para texto formatado obtido a partir do reconhecimento óptico de caracteres (OCR). As bibliotecas Pdfminer.six gratuitas permitem que os desenvolvedores de software convertam arquivos PDF para o formato hOCR com apenas algumas linhas de código Python. A biblioteca é muito fácil de manusear e pode extrair as informações de texto explícitas dos PDFs que as possuem e usá-las para gerar uma representação hOCR básica.

Converter arquivo PDF em texto via Python

A biblioteca inclui um rico conjunto de recursos e recursos que permitem ir além do processamento básico de PDF. A biblioteca Pdfminer.six de código aberto permite que os desenvolvedores Python convertam documentos PDF em texto com apenas alguns comandos simples. Primeiro, você precisa fornecer o caminho para os arquivos PDF, bem como o arquivo de texto. Se o documento estiver protegido por senha, você também precisará fornecer sua senha. O exemplo de código a seguir pode ser usado para atingir o objetivo, ele simplesmente retornará a string em um PDF, dado seu nome de arquivo, você pode salvá-lo facilmente em um arquivo.

Converter arquivo PDF em formato de texto via Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 Português