Бесплатный PHP API для извлечения текста и метаданных из PDF и изображений

Открытая PHP библиотека оптического распознавания символов (OCR) позволяет извлекать текст, метаданные и HTML из PDF, DOCX, изображений (JPEG, PNG) и других документов на разных языках в PHP приложениях.

В сфере разработки программного обеспечения работа с текстом из разных типов файлов может быть сложной, но это частая задача. Независимо от того, создаёте ли вы систему управления документами, инструмент для анализа контента или поисковую систему, возможность извлекать текст из PDF, Word‑документов, электронных таблиц и других форматов файлов имеет решающее значение. Именно здесь библиотека PHP‑Apache‑Tika оказывается полезной. Apache Tika — гибкий набор инструментов, предназначенный для выполнения задач анализа контента. Вы можете использовать Tika для извлечения метаданных и текста из различных типов файлов, таких как PDF, файлы Microsoft Office и изображения. Tika изначально написана на Java. Часто её разворачивают как отдельный сервер, доступный через HTTP. Этот подход позволяет различным языкам программирования, например PHP, использовать мощные возможности Tika без необходимости создавать сложные парсеры с нуля.

Библиотека поддерживает множество функций, таких как извлечение текста и HTML, извлечение метаданных, улучшенная обработка ошибок, распознавание OCR, стандартизированные метаданные для документов, поддержка локальных и удалённых ресурсов и многое другое. Библиотека PHP‑Apache‑Tika соединяет PHP‑приложения с сервером Apache Tika. Вместо того чтобы создавать собственные парсеры или конвертеры, вы можете использовать эту библиотеку для отправки документов на сервер Tika и получения чистого извлечённого текста или метаданных. Это не только упрощает процесс разработки, но и гарантирует, что ваше приложение получает выгоду от постоянных улучшений Tika и широкой поддержки форматов. Независимо от того, разрабатываете ли вы сложную систему управления документами или лёгкий инструмент анализа контента, библиотека PHP‑Apache‑Tika предоставляет надёжное и гибкое решение.

Обзор

Обзор возможностей PHP‑Apache‑Tika.

Обзор функций

Выполнять OCR
Добавлять возможности OCR
Распознавать текст на многих языках
Конвертировать изображения текста
Распознавать шрифтовый текст
Поиск по PDF
Другие языки
Создавать OCR приложения
Сохранять в браузер
Извлекать текст
Поддержка многопоточности

PHP-Apache-Tika

PHP‑Apache‑Tika поддерживает популярные форматы сжатия файлов, перечисленные ниже.

Чтение

PNG, JPEG, BMP, TIFF, TGA, DICOM

Запись

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Платформенная независимость

PHP‑Apache‑Tika требует только среду выполнения PHP.

PHP 5.1 и выше.

PHP-Apache-Tika

Начало работы с PHP‑Apache‑Tika

Рекомендуемый способ установки PHP‑Apache‑Tika — использование Composer. Пожалуйста, выполните следующую команду для быстрой установки.

Install PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Install PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

Вы можете скачать скомпилированную общую библиотеку из репозитория Github repository.

Извлечение текста и HTML с помощью PHP

Одной из основных возможностей библиотеки PHP‑Apache‑Tika является способность извлекать текст из различных форматов документов. Это особенно полезно при реализации функций поиска или инструментов анализа контента. Библиотека поддерживает извлечение простого текста из документов, упрощая их индексацию, поиск и анализ. Ниже приведён фрагмент кода, демонстрирующий, как TikaClient отправляет документ на сервер Tika и получает простой текст, готовый к дальнейшей обработке или индексации.

How to Extract Text from a Document inside PHP Apps?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Извлечение метаданных с помощью PHP библиотеки

Помимо текста, документы часто содержат ценные метаданные, такие как информация об авторе, даты создания и типы файлов. Библиотека PHP‑Apache‑Tika может извлекать эти метаданные, позволяя создавать более насыщенные приложения. В этом примере показано, как получить метаданные из документа. Полученный массив может включать различные детали в зависимости от типа файла и его содержимого.

How to Extract Metadata using PHP Library?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Работа с несколькими форматами файлов

Сила Apache Tika заключается в поддержке множества форматов файлов. Независимо от того, работаете ли вы с PDF, DOC, изображениями или даже менее распространёнными типами файлов, эта библиотека помогает гарантировать возможность извлечения необходимых данных без беспокойства о специфических особенностях форматов. Представьте, что вы разрабатываете систему управления документами, где пользователи могут загружать различные типы файлов. Вы можете использовать библиотеку для определения как содержимого, так и метаданных каждого файла: