1. produkty
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Open Source PHP knihovna pro analýzu souborů PDF

Bezplatné PHP API umožňuje vývojářům analyzovat soubory PDF, extrahovat data a prvky z PDF.

PDFParser je Open source PHP knihovna, která umožňuje vývojářům softwaru analyzovat soubory PDF a extrahovat prvky PDF uvnitř jejich vlastních aplikací PHP. PDFParser je postaven na analyzátoru TCPDF. PDFParser je samostatná PHP knihovna, která poskytuje různé nástroje pro extrakci dat ze souboru PDF.

Portable Document Format (PDF) je jedním z nejoblíbenějších formátů dokumentů na světě a je stále velmi populární. API podporuje několik důležitých funkcí pro analýzu PDF, jako je načítání a analýza PDF objektů a záhlaví, extrahování metadat, extrahování textu z uspořádaných stránek, podpora komprimovaného PDF, podpora kódování obsahu v hexadecimálním a osmičkovém formátu a mnoho dalších.

.

Previous Next

Začínáme s PDFParserem

Knihovna PDFParser bude automaticky stažena pomocí příkazového řádku composer. Přidejte PDFParser do souboru skladatel.json.

Přidejte příkaz do souboru skladatel.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Ke stažení balíčku použijte skladatel spuštěním příkazu:

Analyzujte soubor PDF a extrahujte text z každé stránky přes PHP API

PDFParser poskytuje funkcionalitu, která umožňuje počítačovým programátorům analyzovat PDF dokumenty uvnitř jejich vlastní PHP aplikace. Nejprve musíte vytvořit potřebné objekty a poté načíst soubor PDF, analyzovaný soubor lze uložit do proměnné a poté vám tento objekt umožní pracovat s PDF stránku po stránce. Nyní můžete snadno extrahovat text z celého PDF nebo samostatně po stránkách. Jakmile je dokument analyzován, můžete snadno extrahovat text z každé stránky PDF.

Analyzujte soubor PDF přes PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extrahujte metadata z dokumentu PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extrahujte metadata z PDF přes PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extrahujte text z konkrétní stránky PDF

PDFParser umožňuje vývojářům snadno extrahovat text z konkrétních stránek pomocí malého množství kódu. Rozhraní API dává vývojářům možnost samostatně zpracovávat každou stránku dokumentu PDF. Vývojáři mohou iterovat polem stránek a mohou načíst text ze stránky podle svého výběru. Pořadí pole je stejné jako pořadí dokumentu PDF.

Extrahujte text z PDF přes PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Čeština