PDF ve Görsellerden Metin ve Meta Verileri Çıkaran Ücretsiz PHP API
Açık Kaynak PHP Optik Karakter Tanıma Kütüphanesi, PDF, DOCX, Görseller (JPEG, PNG) ve Diğer Belgelerden Çoklu Dillerde Metin, Meta Veri ve HTML Çıkarılmasını sağlar.
Yazılım geliştirme alanında, farklı dosya türlerinden metinle başa çıkmak zor olabilir ancak sıkça karşılaşılan bir görevdir. Belgeleri yönetmek, içerik analiz etmek ya da bir arama motoru oluşturmak isterken, PDF'ler, Word belgeleri, elektronik tablolar ve diğer dosya formatlarından metin çıkarabilmek kritik öneme sahiptir. İşte bu noktada PHP-Apache-Tika kütüphanesi devreye girer. Apache Tika, içerik analiz işlerini yönetmek için tasarlanmış esnek bir araç takımıdır. Tika’yı kullanarak PDF'ler, Microsoft Office dosyaları ve görseller gibi çeşitli dosya türlerinden meta veri ve metin çıkarabilirsiniz. Tika başlangıçta Java ile kodlanmıştır. Genellikle kendi sunucusu olarak kurulur ve HTTP üzerinden erişilebilir. Bu yöntem, PHP gibi farklı programlama dillerinin, karmaşık ayrıştırma süreçlerini sıfırdan geliştirmeye gerek kalmadan Tika’nın güçlü yeteneklerinden faydalanmasını sağlar.
Kütüphane, metin ve HTML çıkarımı, meta veri çıkarımı, geliştirilmiş hata yönetimi, OCR tanıma, belgeler için standartlaştırılmış meta veri, yerel ve uzak kaynak desteği ve daha birçok özelliği destekler. PHP-Apache-Tika, PHP uygulamaları ile Apache Tika sunucusunu birleştirir. Kendi ayrıştırıcılarınızı ya da dönüştürücülerinizi oluşturmak yerine, bu kütüphane sayesinde belgeleri Tika sunucusuna gönderip temiz, çıkarılmış metin ya da meta veriyi geri alabilirsiniz. Bu, geliştirme sürecini basitleştirmenin yanı sıra, uygulamanızın Tika’nın sürekli güncellenen iyileştirmelerinden ve geniş format desteğinden yararlanmasını sağlar. Karmaşık bir belge yönetim sistemi ya da hafif bir içerik analiz aracı geliştiriyor olsanız da, PHP-Apache-Tika güvenilir ve esnek bir çözüm sunar.
PHP-Apache-Tika ile Başlarken
PHP-Apache-Tika'yı kurmanın önerilen yolu Composer kullanmaktır. Sorunsuz bir kurulum için aşağıdaki komutu kullanın.
Install PHP-Apache-Tika via Composer
composer require vaites/php-apache-tikaInstall PHP-Apache-Tika via Github
git clone https://github.com/fizzday/OcrPHP.git You can download the compiled shared library from Github repository.
PHP ile Metin ve HTML Çıkarma
PHP-Apache-Tika kütüphanesinin temel özelliklerinden biri, çeşitli belge formatlarından metin çıkarabilmesidir. Bu, arama işlevleri ya da içerik analiz araçları geliştirirken özellikle faydalıdır. Kütüphane, belgelerden düz metin çıkarımını destekler; bu sayede içerik indeksleme, arama ya da analiz işlemleri daha kolay hâle gelir. Aşağıdaki kod örneği, TikaClient’ın belgeyi Tika sunucusuna gönderip düz metin içeriğini alarak sonraki işleme ya da indekslemeye hazır hale getirmesini gösterir.
PHP Uygulamalarında Bir Belgeden Metin Nasıl Çıkarılır?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
PHP Kütüphanesi ile Meta Veri Çıkarma
Metnin ötesinde, belgeler genellikle yazar bilgisi, oluşturulma tarihleri ve dosya türleri gibi değerli meta veriler içerir. PHP-Apache-Tika kütüphanesi bu meta verileri çıkarabilir, böylece daha zengin uygulamalar geliştirebilirsiniz. Aşağıdaki örnek, bir belgeden meta veri alımını gösterir. Oluşan dizi, dosya tipine ve içeriğine bağlı olarak çeşitli detaylar içerebilir.
PHP Kütüphanesi Kullanarak Meta Veri Nasıl Çıkarılır?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Birden Çok Dosya Formatını İşleme
Apache Tika’nın gücü, birden çok dosya formatını desteklemesinde yatar. PDF'ler, DOC'lar, görseller ya da daha az yaygın dosya tipleriyle çalışıyor olsanız da, bu kütüphane formatla ilgili özel durumlarla uğraşmadan gerekli verileri çıkarabilmenizi sağlar. Kullanıcıların farklı dosya tipleri yükleyebildiği bir belge yönetim sistemi geliştirdiğinizi hayal edin. Kütüphane, her dosyanın içeriğini ve meta verisini belirlemenize yardımcı olabilir: