Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

Nel campo dello sviluppo software, gestire il testo proveniente da diversi tipi di file può essere complicato ma è un compito frequente. Che tu stia creando un sistema per gestire documenti, uno strumento per analizzare contenuti o un motore di ricerca, la capacità di estrarre testo da PDF, documenti Word, fogli di calcolo e altri formati di file è fondamentale. È qui che la libreria PHP-Apache-Tika diventa preziosa. Apache Tika è un toolkit flessibile progettato per gestire attività di analisi dei contenuti. Puoi usare Tika per estrarre metadati e testo da vari tipi di file come PDF, file Microsoft Office e immagini. Tika è stato inizialmente scritto in Java. Spesso è configurato come server autonomo, rendendolo accessibile tramite HTTP. Questo metodo consente a diversi linguaggi di programmazione, come PHP, di sfruttare le potenti capacità di Tika senza dover creare complessi processi di parsing da zero.

La libreria supporta numerose funzionalità come l'estrazione di testo e HTML, l'estrazione di metadati, una migliore gestione degli errori, il riconoscimento OCR, metadati standardizzati per i documenti, supporto a risorse locali e remote, e molto altro. La libreria PHP-Apache-Tika collega le applicazioni PHP al server Apache Tika. Invece di costruire i propri parser o convertitori, puoi affidarti a questa libreria per inviare i documenti al server Tika e ricevere testo pulito o metadati estratti in risposta. Questo semplifica il processo di sviluppo e garantisce che la tua applicazione benefici dei continui miglioramenti di Tika e del suo ampio supporto ai formati. Che tu stia sviluppando un complesso sistema di gestione documentale o uno strumento leggero di analisi dei contenuti, la libreria PHP-Apache-Tika fornisce una soluzione affidabile e flessibile.

Panoramica

Una panoramica delle funzionalità di PHP-Apache-Tika.

Panoramica delle funzionalità

Eseguire OCR
Aggiungere capacità OCR
Riconoscere testo in molte lingue
Convertire immagini di testo
Testo di font riconosciuto
Cercare PDF
Altre lingue
Creare app OCR
Salvare nel browser
Estrarre testo
Supporto multithreading

PHP-Apache-Tika

PHP-Apache-Tika supporta i popolari formati di file di compressione elencati di seguito.

Lettore

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scrittore

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Indipendenza dalla piattaforma

PHP-Apache-Tika richiede solo il runtime PHP.

PHP 5.1 e versioni successive.

PHP-Apache-Tika

Iniziare con PHP-Apache-Tika

Il modo consigliato per installare PHP-Apache-Tika è utilizzare Composer. Si prega di usare il comando seguente per un'installazione senza problemi.

Install PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Install PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Estrazione di Testo e HTML tramite PHP

Una delle funzionalità principali della libreria PHP-Apache-Tika è la sua capacità di estrarre testo da vari formati di documento. Questo può essere particolarmente utile quando si implementano funzionalità di ricerca o strumenti di analisi dei contenuti. La libreria supporta l'estrazione di testo semplice dai documenti, facilitando l'indicizzazione, la ricerca o l'analisi del contenuto. Di seguito è riportato un frammento di codice che dimostra come TikaClient invia il documento al server Tika e recupera il contenuto di testo semplice, rendendolo pronto per ulteriori elaborazioni o indicizzazioni.

Come estrarre testo da un documento all'interno di app PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Estrazione di Metadati tramite Libreria PHP

Oltre al testo, i documenti spesso contengono metadati preziosi come informazioni sull'autore, date di creazione e tipologia di file. La libreria PHP-Apache-Tika può estrarre questi metadati, consentendoti di costruire applicazioni più ricche. Questo esempio dimostra come recuperare i metadati da un documento. L'array risultante può includere vari dettagli a seconda del tipo di file e del suo contenuto.

Come estrarre metadati usando la libreria PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Gestione di Formati di File Multipli

Il potere di Apache Tika risiede nel suo supporto a molteplici formati di file. Che tu stia lavorando con PDF, DOC, immagini o anche formati meno comuni, questa libreria aiuta a garantire che tu possa estrarre i dati necessari senza preoccuparti di particolarità specifiche del formato. Immagina di sviluppare un sistema di gestione documentale in cui gli utenti possono caricare diversi tipi di file. Potresti usare la libreria per determinare sia il contenuto sia i metadati per ciascun file: