1. 제품
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

PDF 파일 구문 분석을 위한 오픈 소스 PHP 라이브러리

무료 PHP API를 통해 개발자는 PDF 파일을 구문 분석하고 PDF에서 데이터 및 요소를 추출할 수 있습니다.

PDFParser는 소프트웨어 개발자가 자신의 PHP 응용 프로그램 내에서 PDF 파일을 구문 분석하고 PDF 요소를 추출할 수 있도록 하는 오픈 소스 PHP 라이브러리입니다. PDFParser는 TCPDF 파서 위에 구축됩니다. PDFParser는 PDF 파일에서 데이터를 추출하는 다양한 도구를 제공하는 독립형 PHP 라이브러리입니다.

PDF(Portable Document Format)는 세계에서 가장 좋아하는 문서 형식 중 하나이며 여전히 매우 인기가 있습니다. API는 PDF 객체 및 헤더 로드 및 구문 분석, 메타데이터 추출, 정렬된 페이지에서 텍스트 추출, 압축 PDF 지원, 16진수 및 8진수 콘텐츠 인코딩 지원 등과 같은 PDF 구문 분석을 위한 몇 가지 중요한 기능을 지원합니다.

.

Previous Next

PDFParser 시작하기

PDFParser 라이브러리는 작성기 명령줄을 통해 자동으로 다운로드됩니다. 작곡가.json 파일에 PDFParser를 추가합니다.

composer.json에 명령어 추가

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

작성기를 사용하여 다음 명령을 실행하여 번들을 다운로드합니다.

PHP API를 통해 PDF 파일 구문 분석 및 각 페이지에서 텍스트 추출

PDFParser는 컴퓨터 프로그래머가 자신의 PHP 응용 프로그램 내에서 PDF 문서를 구문 분석할 수 있도록 하는 기능을 제공합니다. 먼저 필요한 개체를 빌드한 다음 PDF 파일을 로드해야 합니다. 구문 분석된 파일은 변수에 저장할 수 있으며 이 개체를 사용하면 PDF 페이지를 페이지별로 처리할 수 있습니다. 이제 전체 PDF에서 또는 페이지별로 텍스트를 쉽게 추출할 수 있습니다. 문서가 이제 구문 분석되면 PDF의 각 페이지에서 텍스트를 쉽게 추출할 수 있습니다.

PHP를 통해 PDF 파일 구문 분석

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

PDF 문서에서 메타데이터 추출

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

PHP API를 통해 PDF에서 메타데이터 추출

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

특정 PDF 페이지에서 텍스트 추출

PDFParser를 사용하면 개발자가 적은 양의 코드를 사용하여 특정 페이지에서 텍스트를 쉽게 추출할 수 있습니다. API를 통해 개발자는 PDF 문서의 각 페이지를 개별적으로 처리할 수 있습니다. 개발자는 페이지 배열을 반복하고 선택한 페이지에서 텍스트를 검색할 수 있습니다. 배열의 순서는 PDF 문서의 순서와 동일합니다.

PHP를 통해 PDF에서 텍스트 추출

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 한국인