1. Tuotteet
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Avoimen lähdekoodin PHP-kirjasto PDF-tiedostojen jäsentämiseen

Ilmainen PHP API antaa kehittäjille mahdollisuuden jäsentää PDF-tiedostoja, poimia tietoja ja elementtejä PDF-tiedostoista.

PDFParser on avoimen lähdekoodin PHP-kirjasto, jonka avulla ohjelmistokehittäjät voivat jäsentää PDF-tiedostoja ja poimia PDF-elementtejä omissa PHP-sovelluksissaan. PDFParser on rakennettu TCPDF-jäsentimen päälle. PDFParser on erillinen PHP-kirjasto, joka tarjoaa erilaisia työkaluja tietojen poimimiseen PDF-tiedostosta.

Portable Document Format (PDF) on yksi maailman suosituimmista asiakirjamuodoista ja on edelleen erittäin suosittu. API tukee useita tärkeitä PDF-jäsennysominaisuuksia, kuten PDF-objektien ja otsikoiden lataamista ja jäsentämistä, metatietojen purkamista, tekstin purkamista tilatuilta sivuilta, pakatun PDF-tuen, heksa- ja oktaalisisällön koodauksen tukea ja monia muita.

.

Previous Next

PDFParserin käytön aloittaminen

PDFParser-kirjasto ladataan automaattisesti composer-komentorivin kautta. Lisää PDFParser composer.json-tiedostoosi.

Lisää komento tiedostoon composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Lataa nippu säveltäjän avulla suorittamalla komento:

Jäsennä PDF-tiedosto ja pura teksti jokaiselta sivulta PHP API:n kautta

PDFParser tarjoaa toiminnon, jonka avulla tietokoneohjelmoijat voivat jäsentää PDF-dokumentteja omassa PHP-sovelluksessaan. Ensin sinun on rakennettava tarvittavat objektit ja sitten ladattava PDF-tiedosto, jäsennetty tiedosto voidaan tallentaa muuttujaan ja tämän objektin avulla voit käsitellä PDF-tiedostoa sivulta sivulta. Nyt voit helposti poimia tekstiä koko PDF-tiedostosta tai erikseen sivuittain. Kun asiakirja on jäsennetty, voit helposti poimia tekstiä PDF-tiedoston jokaiselta sivulta.

Jäsennä PDF-tiedosto PHP:n kautta

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Pura metatiedot PDF-dokumentista

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Pura metatiedot PDF-tiedostosta PHP API:n kautta

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Poimi teksti tietystä PDF-sivusta

PDFParserin avulla kehittäjät voivat poimia tekstiä tietyiltä sivuilta helposti käyttämällä pientä koodimäärää. API antaa kehittäjille mahdollisuuden käsitellä PDF-dokumentin jokaista sivua erikseen. Kehittäjät voivat selata sivuja ja hakea tekstiä haluamalta sivulta. Taulukon järjestys on sama kuin PDF-dokumentin järjestys.

Pura teksti PDF-tiedostosta PHP:n kautta

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Suomen