Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

У сфері розробки програмного забезпечення робота з текстом у різних типах файлів може бути складною, проте це часте завдання. Незалежно від того, чи створюєте ви систему управління документами, інструмент аналізу вмісту чи пошуковий движок, можливість витягати текст з PDF, Word‑документів, електронних таблиць та інших форматів файлів є критично важливою. Саме тут у пригоді стає бібліотека PHP‑Apache‑Tika. Apache Tika — гнучкий інструментарій, створений для виконання завдань аналізу вмісту. Ви можете використовувати Tika для отримання метаданих і тексту з різних типів файлів, таких як PDF, файли Microsoft Office та зображення. Спочатку Tika була написана на Java. Зазвичай її розгортають як окремий сервер, доступний через HTTP. Такий підхід дозволяє різним мовам програмування, зокрема PHP, скористатися потужними можливостями Tika без необхідності створювати складні процеси парсингу з нуля.

Бібліотека підтримує безліч функцій, таких як витяг тексту та HTML, витяг метаданих, покращене оброблення помилок, розпізнавання OCR, стандартизовані метадані для документів, підтримка локальних та віддалених ресурсів та багато іншого. PHP‑Apache‑Tika з’єднує PHP‑додатки з сервером Apache Tika. Замість того, щоб будувати власні парсери або конвертери, ви можете користуватися цією бібліотекою для надсилання документів на сервер Tika та отримання чистого витягнутого тексту або метаданих у відповідь. Це не лише спрощує процес розробки, а й забезпечує, що ваш застосунок отримує переваги від постійних удосконалень Tika та широкої підтримки форматів. Незалежно від того, чи розробляєте ви складну систему управління документами, чи легкий інструмент аналізу вмісту, бібліотека PHP‑Apache‑Tika пропонує надійне та гнучке рішення.

Огляд

Огляд функцій PHP‑Apache‑Tika.

Огляд функцій

Виконувати OCR
Додати можливості OCR
Розпізнавати текст багатьма мовами
Конвертувати зображення тексту
Розпізнаний шрифтовий текст
Пошук у PDF
Інші мови
Створювати OCR додатки
Зберігати у браузері
Витягувати текст
Підтримка багатопоточності

PHP-Apache-Tika

PHP‑Apache‑Tika підтримує популярні формати стиснення файлів, перелічені нижче.

Читач

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записувач

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Платформна незалежність

PHP‑Apache‑Tika потребує лише PHP Runtime.

PHP 5.1 та вище.

PHP-Apache-Tika

Початок роботи з PHP‑Apache‑Tika

Рекомендований спосіб встановлення PHP‑Apache‑Tika — використання Composer. Будь ласка, скористайтеся наступною командою для безпроблемної інсталяції.

Встановити PHP‑Apache‑Tika через Composer

composer require vaites/php-apache-tika

Встановити PHP‑Apache‑Tika через Github

git clone https://github.com/fizzday/OcrPHP.git

Ви можете завантажити скомпільовану спільну бібліотеку з Github репозиторію.

Витяг тексту та HTML за допомогою PHP

Однією з головних можливостей бібліотеки PHP‑Apache‑Tika є здатність витягати текст з різних форматів документів. Це може бути особливо корисним при реалізації функцій пошуку або інструментів аналізу вмісту. Бібліотека підтримує витяг простого тексту з документів, що спрощує індексацію, пошук або аналіз вмісту. Нижче наведено фрагмент коду, який демонструє, як TikaClient надсилає документ на сервер Tika та отримує простий текстовий вміст, готовий до подальшої обробки або індексації.

Як витягнути текст з документа у PHP‑додатках?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Витяг метаданих за допомогою PHP бібліотеки

Окрім тексту, документи часто містять цінні метадані, такі як інформація про автора, дати створення та типи файлів. Бібліотека PHP‑Apache‑Tika може витягати ці метадані, дозволяючи створювати більш насичені застосунки. У цьому прикладі показано, як отримати метадані з документа. Отриманий масив може містити різноманітні деталі залежно від типу файлу та його вмісту.

Як витягнути метадані за допомогою PHP бібліотеки?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Обробка кількох форматів файлів

Сила Apache Tika полягає у підтримці багатьох форматів файлів. Незалежно від того, чи працюєте ви з PDF, DOC, зображеннями чи навіть менш поширеними типами файлів, ця бібліотека допомагає забезпечити витяг необхідних даних без турбот про специфічні особливості форматів. Уявіть, що ви розробляєте систему управління документами, де користувачі можуть завантажувати різні типи файлів. Ви можете використати бібліотеку для визначення як вмісту, так і метаданих кожного файлу: