Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

Proqram təminatı inkişafı sahəsində müxtəlif növ fayllardan mətnlə işləmək çətin ola bilər, lakin tez-tez görülən bir vəzifədir. Sənədləri idarə edən bir sistem, məzmunu təhlil edən bir alət və ya axtarış mühərriki yaratsanız da, PDF‑lərdən, Word sənədlərindən, cədvəllərdən və digər fayl formatlarından mətn çıxarmaq vacibdir. Burada PHP‑Apache‑Tika kitabxanası dəyər qazanır. Apache Tika, məzmun təhlili işlərini idarə etmək üçün hazırlanmış elastik bir alət dəstidir. Tika‑dan PDF‑lər, Microsoft Office faylları və şəkillər kimi müxtəlif fayl növlərinin metaverilənlərini və mətnini çıxarmaq üçün istifadə edə bilərsiniz. Tika ilkin olaraq Java‑da kodlaşdırılıb. Çox vaxt öz serveri kimi quraşdırılır və HTTP vasitəsilə əlçatan olur. Bu üsul, PHP kimi müxtəlif proqramlaşdırma dillərinə, sıfırdan mürəkkəb parsinq prosesləri yaratmadan, Tika‑nın güclü imkanlarından faydalanmağa imkan verir.

Kitabxana mətn və HTML çıxarılması, metaverilənlərin çıxarılması, daha yaxşı səhv idarəetməsi, OCR tanıma, sənədlər üçün standartlaşdırılmış metaverilənlər, yerli və uzaq mənbələrə dəstək və daha bir çox xüsusiyyətləri dəstəkləyir. PHP‑Apache‑Tika kitabxanası PHP tətbiqlərini Apache Tika serveri ilə birləşdirir. Öz parsinq və ya konvertasiya alətlərinizi yaratmaq yerinə, bu kitabxanadan istifadə edərək sənədləri Tika serverinə göndərə və təmiz, çıxarılmış mətn və ya metaverilənləri geri ala bilərsiniz. Bu, yalnız inkişaf prosesini sadələşdirmir, həm də tətbiqinizin Tika‑nın davamlı təkmilləşdirmələrindən və geniş format dəstəyindən faydalanmasını təmin edir. Çətin sənəd idarəetmə sistemi və ya yüngül məzmun təhlili aləti yaratmağınızdan asılı olmayaraq, PHP‑Apache‑Tika kitabxanası etibarlı və elastik bir həll təqdim edir.

Ümumi Baxış

PHP‑Apache‑Tika xüsusiyyətlərinə ümumi baxış.

Xüsusiyyətlər Üzrə Baxış

OCR yerinə yetir
OCR imkanları əlavə et
Mətni bir çox dildə tanı
Mətn şəkillərini çevir
Tanınan şrift mətn
PDF axtar
Digər Dillər
OCR tətbiqləri yarat
Brauzerə yadda saxla
Mətni çıxar
Çox ipli dəstək

PHP-Apache-Tika

PHP‑Apache‑Tika aşağıdakı populyar sıxışdırma fayl formatlarını dəstəkləyir.

Oxuyucu

PNG, JPEG, BMP, TIFF, TGA, DICOM

Yazıcı

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformadan Asılı Olmama

PHP‑Apache‑Tika yalnız PHP Runtime tələb edir.

PHP 5.1 və yuxarı.

PHP-Apache-Tika

PHP‑Apache‑Tika ilə Başlamaq

PHP‑Apache‑Tika‑nı quraşdırmağın tövsiyə olunan yolu Composer‑dən istifadə etməkdir. Zəhmət olmasa, problemsiz quraşdırma üçün aşağıdakı əmri istifadə edin.

Composer vasitəsilə PHP‑Apache‑Tika‑nı quraşdırın

composer require vaites/php-apache-tika

Github vasitəsilə PHP‑Apache‑Tika‑nı quraşdırın

git clone https://github.com/fizzday/OcrPHP.git

Kompleks paylaşılan kitabxananı Github deposundan yükləyə bilərsiniz.

PHP vasitəsilə Mətn və HTML Çıxarılması

PHP‑Apache‑Tika kitabxanasının əsas xüsusiyyətlərindən biri, müxtəlif sənəd formatlarından mətn çıxara bilməsidir. Bu, axtarış funksionallıqları və ya məzmun təhlili alətləri yaratarkən xüsusilə faydalıdır. Kitabxana sənədlərdən sadə mətn çıxarmağı dəstəkləyir, bu da məzmunun indeksləşdirilməsini, axtarılmasını və ya təhlilini asanlaşdırır. Aşağıdakı kod nümunəsi TikaClient‑in sənədi Tika serverinə göndərib, sadə mətn məzmununu alaraq, onu daha sonra emal və ya indeksləşdirmə üçün necə hazırladığını göstərir.

PHP Tətbiqlərində Sənəddən Mətn Necə Çıxarmaq Olar?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Tika serverinin URL‑i ilə müştəriyi başlat
$client = new TikaClient('http://localhost:9998');

// Sənədin yolunu təyin edin (məs., PDF, DOCX və s.)
$filePath = '/path/to/your/document.pdf';

try {
    // Sənəddən mətn məzmununu çıxar
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

PHP Kitabxanası vasitəsilə Metaverilənlərin Çıxarılması

Mətnin yanında, sənədlər tez-tez müəllif məlumatları, yaradılma tarixləri və fayl növləri kimi dəyərli metaverilənləri də saxlayır. PHP‑Apache‑Tika kitabxanası bu metaverilənləri çıxara bilir, bu da daha zəngin tətbiqlər yaratmağa imkan verir. Aşağıdakı nümunə sənəddən metaverilənləri necə əldə etmək lazım olduğunu göstərir. Nəticə massiv fayl növünə və məzmununa görə müxtəlif detallar ehtiva edə bilər.

PHP Kitabxanası ilə Metaverilənləri Necə Çıxarmaq Olar?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Tika müştərisini başlat
$client = new TikaClient('http://localhost:9998');

// Sənədin yolunu göstərin
$filePath = '/path/to/your/document.pdf';

try {
    // Sənəddən metaverilənləri çıxar
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Çoxsaylı Fayl Formatlarının İdarə Edilməsi

Apache Tika‑nın gücü, çoxsaylı fayl formatlarını dəstəkləməsindədir. PDF‑lər, DOC‑lar, şəkillər və hətta daha az yayılmış fayl tipləri ilə işləsəniz də, bu kitabxana format‑spesifik çətinliklərdən narahat olmadan lazım olan məlumatları çıxarmağa kömək edir. Məsələn, müxtəlif fayl növlərini yükləyə bilən bir sənəd idarəetmə sistemi yaradırsınız. Kitabxanadan istifadə edərək hər bir fayl üçün həm məzmunu, həm də metaverilənləri müəyyən edə bilərsiniz: