Darmowe API PHP do wyodrębniania tekstu i metadanych z PDF i obrazów

Otwarto‑źródłowa biblioteka PHP do rozpoznawania znaków optycznych (OCR) umożliwia wyodrębnianie tekstu, metadanych i HTML z PDF, DOCX, obrazów (JPEG, PNG) oraz innych dokumentów w wielu językach w aplikacjach PHP.

W dziedzinie tworzenia oprogramowania radzenie sobie z tekstem pochodzącym z różnych typów plików może być trudne, ale jest to częste zadanie. Niezależnie od tego, czy tworzysz system zarządzania dokumentami, narzędzie do analizy treści, czy wyszukiwarkę, możliwość wyodrębniania tekstu z PDF‑ów, dokumentów Word, arkuszy kalkulacyjnych i innych formatów plików jest kluczowa. Właśnie tutaj biblioteka PHP-Apache-Tika okazuje się cenna. Apache Tika to elastyczne narzędzie stworzone do obsługi zadań analizy treści. Możesz używać Tiki do pobierania metadanych i tekstu z różnych typów plików, takich jak PDF‑y, pliki Microsoft Office i obrazy. Tika została pierwotnie napisana w języku Java. Często jest uruchamiana jako osobny serwer, dostępny przez HTTP. Dzięki temu różne języki programowania, takie jak PHP, mogą korzystać z potężnych możliwości Tiki, nie musząc tworzyć skomplikowanych procesów parsowania od podstaw.

Biblioteka wspiera liczne funkcje, takie jak wyodrębnianie tekstu i HTML, wyodrębnianie metadanych, lepsze obsługiwanie błędów, rozpoznawanie OCR, ustandaryzowane metadane dokumentów, wsparcie zasobów lokalnych i zdalnych oraz wiele innych. Biblioteka PHP-Apache-Tika łączy aplikacje PHP z serwerem Apache Tika. Zamiast budować własne parsery lub konwertery, możesz polegać na tej bibliotece, aby wysyłać dokumenty do serwera Tika i otrzymywać czysty, wyodrębniony tekst lub metadane w zamian. To nie tylko upraszcza proces tworzenia oprogramowania, ale także zapewnia, że Twoja aplikacja korzysta z ciągłych ulepszeń i szerokiego wsparcia formatów oferowanych przez Tika. Niezależnie od tego, czy tworzysz rozbudowany system zarządzania dokumentami, czy lekki tool do analizy treści, biblioteka PHP-Apache-Tika zapewnia niezawodne i elastyczne rozwiązanie.

Na pierwszy rzut oka

Przegląd funkcji PHP-Apache-Tika.

Features Overview

Wykonywanie OCR
Dodawanie możliwości OCR
Rozpoznawanie tekstu w wielu językach
Konwertowanie obrazów tekstu
Rozpoznany tekst czcionki
Przeszukiwanie PDF
Inne języki
Tworzenie aplikacji OCR
Zapis do przeglądarki
Wyodrębnianie tekstu
Wsparcie wielowątkowości

PHP-Apache-Tika

PHP-Apache-Tika obsługuje popularne formaty plików kompresji wymienione poniżej.

Reader

PNG, JPEG, BMP, TIFF, TGA, DICOM

Writer

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Niezależność platformowa

PHP-Apache-Tika wymaga jedynie środowiska uruchomieniowego PHP.

PHP 5.1 i nowsze.

PHP-Apache-Tika

Rozpoczęcie pracy z PHP-Apache-Tika

Zalecany sposób instalacji PHP-Apache-Tika to użycie Composer. Proszę użyć poniższego polecenia, aby przeprowadzić płynną instalację.

Install PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Install PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from GitHub repository.

Wyodrębnianie tekstu i HTML przy użyciu PHP

Jedną z głównych funkcji biblioteki PHP-Apache-Tika jest możliwość wyodrębniania tekstu z różnych formatów dokumentów. Może to być szczególnie przydatne przy implementacji funkcji wyszukiwania lub narzędzi analizy treści. Biblioteka wspiera wyodrębnianie zwykłego tekstu z dokumentów, co ułatwia indeksowanie, wyszukiwanie lub analizę zawartości. Poniżej znajduje się fragment kodu, który demonstruje, jak TikaClient wysyła dokument do serwera Tika i pobiera czysty tekst, gotowy do dalszego przetwarzania lub indeksowania.

How to Extract Text from a Document inside PHP Apps?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Wyodrębnianie metadanych przy użyciu biblioteki PHP

Poza samym tekstem, dokumenty często zawierają cenne metadane, takie jak informacje o autorze, daty utworzenia i typy plików. Biblioteka PHP-Apache-Tika może wyodrębniać te metadane, co pozwala budować bogatsze aplikacje. Ten przykład pokazuje, jak pobrać metadane z dokumentu. Wynikowa tablica może zawierać różne szczegóły w zależności od typu pliku i jego zawartości.

How to Extract Metadata using PHP Library?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Obsługa wielu formatów plików

Moc Apache Tika polega na wsparciu wielu formatów plików. Niezależnie od tego, czy pracujesz z PDF‑ami, DOC‑ami, obrazami, czy nawet mniej popularnymi typami plików, ta biblioteka pomaga zapewnić, że możesz wyodrębnić potrzebne dane bez martwienia się o specyficzne dla formatu problemy. Wyobraź sobie, że tworzysz system zarządzania dokumentami, w którym użytkownicy mogą przesyłać różne typy plików. Możesz użyć biblioteki, aby określić zarówno zawartość, jak i metadane każdego pliku: