Biblioteca PHP de código aberto para analisar arquivos PDF

A API PHP gratuita permite que os desenvolvedores analisem arquivos PDF, extraiam dados e elementos de PDFs.

PDFParser é uma biblioteca PHP de código aberto que permite que desenvolvedores de software analisem arquivos PDF e extraiam elementos PDF dentro de seus próprios aplicativos PHP. PDFParser é construído sobre o analisador TCPDF. PDFParser é uma biblioteca PHP autônoma que fornece várias ferramentas para extrair dados de um arquivo PDF.

Portable Document Format (PDF) é um dos formatos de documentos favoritos do mundo e ainda é muito popular. A API suporta vários recursos importantes para análise de PDF, como carregar e analisar objetos e cabeçalhos de PDF, extrair metadados, extrair texto de páginas ordenadas, suporte a PDF compactado, suporte a codificação de conteúdo Hexa e octal e muito mais.

Num relance

Uma visão geral dos recursos do PDFParser.

Visão geral dos recursos

Carregar objetos PDF
Analisar objetos
Cabeçalhos de análise
Extrair metadados
Extrair texto
PDF compactado
codificação do conjunto de caracteres
Codificação hexa
Codificação octal

PDFParser

PDFParser suporta o formato de arquivo PDF, bem como formatos padrão da indústria para exportação.

Leitor

Escritor

TXT, HTML

PDFParser

Independência da plataforma

O PDFParser requer apenas o tempo de execução do PHP.

PHP 5.3 e superior.

PDFParser

Introdução ao PDFParser

A biblioteca PDFParser será baixada automaticamente por meio da linha de comando composer. Adicione o PDFParser ao seu arquivo composer.json.

Adicionar comando ao composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Use o compositor para baixar o pacote executando o comando:

Analise o arquivo PDF e extraia o texto de cada página via API PHP

PDFParser fornece a funcionalidade que permite que programadores de computador analisem documentos PDF dentro de seu próprio aplicativo PHP. Primeiro, você precisa construir os objetos necessários e, em seguida, carregar o arquivo PDF, o arquivo analisado pode ser armazenado em uma variável e, em seguida, esse objeto permitirá que você manipule o PDF página por página. Agora você pode extrair facilmente o texto de todo o PDF ou separadamente por páginas. Depois que o documento for analisado, você poderá extrair facilmente o texto de cada página do PDF.

Analisar arquivo PDF via PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extrair metadados de um documento PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extraia metadados de PDF via API PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extrair texto de uma página PDF específica

PDFParser permite aos desenvolvedores extrair texto de páginas específicas com facilidade usando uma pequena quantidade de código. A API oferece aos desenvolvedores a capacidade de lidar separadamente com cada página do documento PDF. Os desenvolvedores podem percorrer a matriz de páginas e podem recuperar o texto da página de sua escolha. A ordem da matriz é a mesma do documento PDF.

Extrair texto de PDF via PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();