Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

В областта на софтуерната разработка, работата с текст от различни типове файлове може да бъде сложна, но е често срещана задача. Независимо дали създавате система за управление на документи, инструмент за анализ на съдържание или търсачка, способността да извличате текст от PDF‑ове, Word документи, електронни таблици и други файлови формати е от съществено значение. Тук идва на помощ библиотеката PHP‑Apache‑Tika. Apache Tika е гъвкава набор от инструменти, създаден за управление на задачи по анализ на съдържание. Можете да използвате Tika, за да изтеглите метаданни и текст от различни файлови типове като PDF‑ове, файлове от Microsoft Office и изображения. Tika първоначално е написана на Java. Често се разполага като отделен сървър, достъпен чрез HTTP. Този подход позволява на различни програмни езици, като PHP, да се възползват от мощните възможности на Tika, без да се налага да създават сложни процеси за парсиране от нулата.

Библиотеката поддържа множество функции като извличане на текст и HTML, извличане на метаданни, подобрено обработване на грешки, OCR разпознаване, стандартизирани метаданни за документи, поддръжка на локални и отдалечени ресурси и много други. PHP‑Apache‑Tika свързва PHP приложенията със сървъра на Apache Tika. Вместо да създавате свои парсери или конвертори, можете да разчитате на тази библиотека, за да изпращате документи към сървъра на Tika и да получавате чист, извлечен текст или метаданни в отговор. Това не само опростява процеса на разработка, но и гарантира, че вашето приложение се възползва от непрекъснатите подобрения и широката поддръжка на формати на Tika. Независимо дали разработвате сложна система за управление на документи или лек инструмент за анализ на съдържание, PHP‑Apache‑Tika предлага надеждно и гъвкаво решение.

Накратко

Общ преглед на функциите на PHP‑Apache‑Tika.

Преглед на функциите

Извършване на OCR
Добавяне на OCR възможности
Разпознаване на текст на много езици
Конвертиране на изображения с текст
Разпознат текст от шрифт
Търсене в PDF
Други езици
Създаване на OCR приложения
Запис в браузъра
Извличане на текст
Поддръжка на многопоточност

PHP‑Apache‑Tika

PHP‑Apache‑Tika поддържа популярни формати за компресия, изброени по-долу.

Четец

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записвач

PNG, JPEG, BMP, TIFF

PHP‑Apache‑Tika

Платформена независимост

PHP‑Apache‑Tika изисква само PHP Runtime.

PHP 5.1 и по-нови.

PHP‑Apache‑Tika

Започване с PHP‑Apache‑Tika

Препоръчителният начин за инсталиране на PHP‑Apache‑Tika е чрез Composer. Моля, използвайте следната команда за безпроблемна инсталация.

Install PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Install PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

Можете да изтеглите компилираната споделена библиотека от Github хранилището.

Извличане на текст и HTML чрез PHP

Една от основните функции на библиотеката PHP‑Apache‑Tika е способността ѝ да извлича текст от различни формати на документи. Това е особено полезно при реализиране на функции за търсене или инструменти за анализ на съдържание. Библиотеката поддържа извличане на чист текст от документи, което улеснява индексирането, търсенето или анализа на съдържанието. По-долу е показан примерен код, който демонстрира как TikaClient изпраща документа към сървъра на Tika и получава чистия текст, готов за по-нататъшна обработка или индексиране.

Как да извлечете текст от документ в PHP приложения?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Извличане на метаданни чрез PHP библиотека

Освен текста, документите често съдържат ценни метаданни като информация за автора, дати на създаване и типове файлове. PHP‑Apache‑Tika може да извлича тези метаданни, позволявайки ви да създавате по-богати приложения. Този пример показва как да се извлекат метаданните от документ. Полученият масив може да включва различни детайли в зависимост от типа на файла и неговото съдържание.

Как да извлечете метаданни с помощта на PHP библиотека?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Работа с множество файлови формати

Силата на Apache Tika се състои в поддръжката ѝ за множество файлови формати. Независимо дали работите с PDF‑ове, DOC‑ове, изображения или дори по-редки типове файлове, тази библиотека ви помага да извлечете необходимите данни без да се притеснявате за специфични особености на формата. Представете си, че разработвате система за управление на документи, където потребителите могат да качват различни типове файлове. Можете да използвате библиотеката, за да определите както съдържанието, така и метаданните за всеки файл: