1. Termékek
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Nyílt forráskódú PHP-könyvtár PDF-fájlok elemzéséhez

Az ingyenes PHP API lehetővé teszi a fejlesztők számára a PDF-fájlok elemzését, az adatok és elemek PDF-ekből való kibontását.

A PDFParser egy nyílt forráskódú PHP-könyvtár, amely lehetővé teszi a szoftverfejlesztők számára a PDF-fájlok elemzését és a PDF-elemek kibontását saját PHP-alkalmazásaikon belül. A PDFParser a TCPDF elemzőre épül. A PDFParser egy önálló PHP-könyvtár, amely különféle eszközöket biztosít adatok PDF-fájlokból való kinyerésére.

A Portable Document Format (PDF) a világ egyik kedvenc dokumentumformátuma, és még mindig nagyon népszerű. Az API számos fontos funkciót támogat a PDF-elemzéshez, mint például a PDF-objektumok és fejlécek betöltése és elemzése, metaadatok kinyerése, szövegek kinyerése a rendezett oldalakról, tömörített PDF-támogatás, hexa és oktális tartalomkódolás támogatása és még sok más.

.

Previous Next

A PDFParser használatának első lépései

A PDFParser könyvtár automatikusan letöltődik a composer parancssoron keresztül. Adja hozzá a PDFParser-t a composer.json fájlhoz.

Parancs hozzáadása a composer.json fájlhoz

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Használja a zeneszerzőt a csomag letöltéséhez a következő parancs futtatásával:

PDF fájl elemzése és szöveg kibontása minden oldalról PHP API-n keresztül

A PDFParser biztosítja azt a funkcionalitást, amely lehetővé teszi a számítógép-programozók számára, hogy PDF dokumentumokat elemezzenek saját PHP-alkalmazásukon belül. Először létre kell hoznia a szükséges objektumokat, majd betölteni a PDF fájlt, az elemzett fájl egy változóban tárolható, majd ez az objektum lehetővé teszi a PDF oldalról oldalra történő kezelését. Mostantól egyszerűen kivonhatja a szöveget a teljes PDF-ből vagy oldalanként külön-külön. A dokumentum elemzése után könnyedén kivonhatja a szöveget a PDF minden oldaláról.

PDF fájl elemzése PHP-n keresztül

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Metaadatok kibontása a PDF-dokumentumból

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Metaadatok kibontása PDF-ből PHP API-n keresztül

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Szöveg kibontása egy adott PDF-oldalról

A PDFParser lehetővé teszi a fejlesztők számára, hogy kis mennyiségű kód használatával könnyedén kinyerjenek szöveget adott oldalakról. Az API lehetővé teszi a fejlesztők számára, hogy külön kezeljék a PDF-dokumentum minden oldalát. A fejlesztők ismételhetik az oldalak tömbjét, és lekérhetnek szöveget az általuk választott oldalról. A tömb sorrendje megegyezik a PDF dokumentuméval.

Szöveg kibontása PDF-ből PHP-n keresztül

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Magyar