PDF Dosyalarını Ayrıştırmak için Açık Kaynak PHP Kitaplığı
Ücretsiz PHP API, Geliştiricilerin PDF Dosyalarını Ayrıştırmasına, PDF'lerden Veri ve Öğeleri Çıkarmasına olanak tanır.
PDFParser, yazılım geliştiricilerin PDF dosyalarını ayrıştırmalarına ve PDF öğelerini kendi PHP uygulamaları içinde ayıklamalarına olanak tanıyan bir Açık kaynaklı PHP Kitaplığıdır. PDFParser, TCPDF ayrıştırıcısının üzerine inşa edilmiştir. PDFParser, bir PDF dosyasından veri çıkarmak için çeşitli araçlar sağlayan bağımsız bir PHP kitaplığıdır.
Taşınabilir Belge Formatı (PDF), dünyanın en sevilen belge formatlarından biridir ve hala çok popülerdir. API, PDF nesnelerini ve başlıklarını yükleme ve ayrıştırma, meta verileri ayıklama, sıralı sayfalardan metin çıkarma, sıkıştırılmış PDF desteği, Hexa ve sekizli içerik kodlama desteği ve çok daha fazlası gibi PDF ayrıştırma için birkaç önemli özelliği destekler.
.
PDFParser'a Başlarken
PDFParser kitaplığı, composer komut satırı aracılığıyla otomatik olarak indirilecektir. PDFParser'ı besteci.json dosyanıza ekleyin.
besteci.json'a komut ekle
{
"require": {
"smalot/pdfparser": "*"
}
}
Komutu çalıştırarak paketi indirmek için oluşturucuyu kullanın:
PHP API ile PDF Dosyasını Ayrıştırma ve Her Sayfadan Metin Çıkarma
PDFParser, bilgisayar programcılarının PDF belgelerini kendi PHP uygulamaları içinde ayrıştırmalarını sağlayan işlevsellik sağlar. Önce gerekli nesneleri oluşturmanız ve ardından PDF dosyasını yüklemeniz gerekir, ayrıştırılan dosya bir değişkende saklanabilir ve ardından bu nesne PDF'yi sayfa sayfa işlemenize izin verecektir. Artık tüm PDF'den veya sayfalara göre ayrı ayrı metinleri kolayca ayıklayabilirsiniz. Belge ayrıştırıldıktan sonra, PDF'nin her sayfasından kolayca metin ayıklayabilirsiniz.
PHP ile PDF Dosyasını Ayrıştırma
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
PDF Belgesinden Meta Verileri Çıkarın
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
PHP API aracılığıyla PDF'den Meta Verileri Çıkarın
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Belirli Bir PDF Sayfasından Metin Çıkarma
PDFParser, geliştiricilerin az miktarda kod kullanarak belirli sayfalardan kolaylıkla metin çıkarmasına olanak tanır. API, geliştiricilere PDF belgesinin her sayfasını ayrı ayrı işleme yeteneği verir. Geliştiriciler, sayfa dizisini yineleyebilir ve seçtikleri sayfadan metin alabilirler. Dizinin sırası, PDF belgesininkiyle aynıdır.
PHP ile PDF'den Metin Çıkarın
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();