PDF Dosyalarını Ayrıştırmak için Açık Kaynak PHP Kitaplığı

Ücretsiz PHP API, Geliştiricilerin PDF Dosyalarını Ayrıştırmasına, PDF'lerden Veri ve Öğeleri Çıkarmasına olanak tanır.

PDFParser, yazılım geliştiricilerin PDF dosyalarını ayrıştırmalarına ve PDF öğelerini kendi PHP uygulamaları içinde ayıklamalarına olanak tanıyan bir Açık kaynaklı PHP Kitaplığıdır. PDFParser, TCPDF ayrıştırıcısının üzerine inşa edilmiştir. PDFParser, bir PDF dosyasından veri çıkarmak için çeşitli araçlar sağlayan bağımsız bir PHP kitaplığıdır.

Taşınabilir Belge Formatı (PDF), dünyanın en sevilen belge formatlarından biridir ve hala çok popülerdir. API, PDF nesnelerini ve başlıklarını yükleme ve ayrıştırma, meta verileri ayıklama, sıralı sayfalardan metin çıkarma, sıkıştırılmış PDF desteği, Hexa ve sekizli içerik kodlama desteği ve çok daha fazlası gibi PDF ayrıştırma için birkaç önemli özelliği destekler.

Bir Bakışta

PDFParser özelliklerine genel bakış.

Özelliklere genel bakış

PDF nesnelerini yükle
Nesneleri ayrıştır
Başlıkları ayrıştır
Meta verileri ayıkla
Metin ayıkla
Sıkıştırılmış PDF
karakter kümesi kodlaması
altıgen kodlama
sekizli kodlama

PDFParser

PDFParser, dışa aktarma için endüstri standardı biçimlerin yanı sıra PDF dosya biçimini de destekler.

Okuyucu

yazar

TXT, HTML

PDFParser

Platform Bağımsızlığı

PDFParser yalnızca PHP çalışma zamanı gerektirir.

PHP 5.3 ve üzeri.

PDFParser

PDFParser'a Başlarken

PDFParser kitaplığı, composer komut satırı aracılığıyla otomatik olarak indirilecektir. PDFParser'ı besteci.json dosyanıza ekleyin.

besteci.json'a komut ekle

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Komutu çalıştırarak paketi indirmek için oluşturucuyu kullanın:

PHP API ile PDF Dosyasını Ayrıştırma ve Her Sayfadan Metin Çıkarma

PDFParser, bilgisayar programcılarının PDF belgelerini kendi PHP uygulamaları içinde ayrıştırmalarını sağlayan işlevsellik sağlar. Önce gerekli nesneleri oluşturmanız ve ardından PDF dosyasını yüklemeniz gerekir, ayrıştırılan dosya bir değişkende saklanabilir ve ardından bu nesne PDF'yi sayfa sayfa işlemenize izin verecektir. Artık tüm PDF'den veya sayfalara göre ayrı ayrı metinleri kolayca ayıklayabilirsiniz. Belge ayrıştırıldıktan sonra, PDF'nin her sayfasından kolayca metin ayıklayabilirsiniz.

PHP ile PDF Dosyasını Ayrıştırma

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

PDF Belgesinden Meta Verileri Çıkarın

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

PHP API aracılığıyla PDF'den Meta Verileri Çıkarın

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Belirli Bir PDF Sayfasından Metin Çıkarma

PDFParser, geliştiricilerin az miktarda kod kullanarak belirli sayfalardan kolaylıkla metin çıkarmasına olanak tanır. API, geliştiricilere PDF belgesinin her sayfasını ayrı ayrı işleme yeteneği verir. Geliştiriciler, sayfa dizisini yineleyebilir ve seçtikleri sayfadan metin alabilirler. Dizinin sırası, PDF belgesininkiyle aynıdır.

PHP ile PDF'den Metin Çıkarın

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();