用于解析 PDF 文件的开源 PHP 库
免费的 PHP API 允许开发人员解析 PDF 文件,从 PDF 中提取数据和元素。
PDFParser 入门
PDFParser 库将通过 composer 命令行自动下载。将 PDFParser 添加到您的 composer.json 文件。
将命令添加到 composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
使用 composer 通过运行以下命令下载包:
通过 PHP API 解析 PDF 文件并从每个页面中提取文本
PDFParser 提供了使计算机程序员能够在他们自己的 PHP 应用程序中解析 PDF 文档的功能。首先,您需要构建必要的对象,然后加载 PDF 文件,解析后的文件可以存储在一个变量中,然后该对象将允许您逐页处理 PDF。现在,您可以轻松地从整个 PDF 中提取文本或按页面单独提取文本。现在解析文档后,您可以轻松地从 PDF 的每一页中提取文本。
通过 PHP 解析 PDF 文件
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
从 PDF 文档中提取元数据
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
通过 PHP API 从 PDF 中提取元数据
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
从特定 PDF 页面中提取文本
PDFParser 允许开发人员通过使用少量代码轻松地从特定页面中提取文本。该 API 使开发人员能够单独处理 PDF 文档的每一页。开发人员可以遍历页面数组,并可以从他们选择的页面中检索文本。数组的顺序与 PDF 文档的顺序相同。
通过 PHP 从 PDF 中提取文本
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();