用于解析 PDF 文件的开源 PHP 库

免费的 PHP API 允许开发人员解析 PDF 文件，从 PDF 中提取数据和元素。

PDFParser 是一个开源 PHP 库，允许软件开发人员在他们自己的 PHP 应用程序中解析 PDF 文件并提取 PDF 元素。 PDFParser 建立在 TCPDF 解析器之上。 PDFParser 是一个独立的 PHP 库，它提供了从 PDF 文件中提取数据的各种工具。

便携式文档格式 (PDF) 是世界上最受欢迎的文档格式之一，并且仍然非常流行。该 API 支持 PDF 解析的几个重要功能，例如加载和解析 PDF 对象和标题、提取元数据、从有序页面中提取文本、压缩 PDF 支持、Hexa 和八进制内容编码支持等等。

乍看上去

PDFParser 功能概述。

功能概述

加载 PDF 对象
解析对象
解析标头
提取元数据
提取文本
压缩的 PDF
字符集编码
十六进制编码
八进制编码

PDF解析器

PDFParser 支持 PDF 文件格式以及用于导出的行业标准格式。

读者

作家

TXT, HTML

PDF解析器

平台独立性

PDFParser 只需要 PHP 运行时。

PHP 5.3 及更高版本。

PDF解析器

PDFParser 入门

PDFParser 库将通过 composer 命令行自动下载。将 PDFParser 添加到您的 composer.json 文件。

将命令添加到 composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

使用 composer 通过运行以下命令下载包：

通过 PHP API 解析 PDF 文件并从每个页面中提取文本

PDFParser 提供了使计算机程序员能够在他们自己的 PHP 应用程序中解析 PDF 文档的功能。首先，您需要构建必要的对象，然后加载 PDF 文件，解析后的文件可以存储在一个变量中，然后该对象将允许您逐页处理 PDF。现在，您可以轻松地从整个 PDF 中提取文本或按页面单独提取文本。现在解析文档后，您可以轻松地从 PDF 的每一页中提取文本。

通过 PHP 解析 PDF 文件

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

从 PDF 文档中提取元数据

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

通过 PHP API 从 PDF 中提取元数据

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

从特定 PDF 页面中提取文本

PDFParser 允许开发人员通过使用少量代码轻松地从特定页面中提取文本。该 API 使开发人员能够单独处理 PDF 文档的每一页。开发人员可以遍历页面数组，并可以从他们选择的页面中检索文本。数组的顺序与 PDF 文档的顺序相同。

通过 PHP 从 PDF 中提取文本

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();