API PHP gratuita para extraer Texto y Metadatos de PDF e Imágenes

Biblioteca de Reconocimiento Óptico de Caracteres PHP de código abierto permite extraer Texto, Metadatos y HTML de PDF, DOCX, Imágenes (JPEG, PNG) y otros documentos en varios idiomas dentro de aplicaciones PHP.

En el campo del desarrollo de software, manejar texto de diferentes tipos de archivos puede ser complicado pero es una tarea frecuente. Ya sea que estés creando un sistema para gestionar documentos, una herramienta para analizar contenido o un motor de búsqueda, poder extraer texto de PDFs, documentos Word, hojas de cálculo y otros formatos de archivo es crucial. Aquí es donde la biblioteca PHP-Apache-Tika resulta valiosa. Apache Tika es un conjunto de herramientas flexible creado para gestionar trabajos de análisis de contenido. Puedes usar Tika para extraer metadatos y texto de varios tipos de archivo como PDFs, archivos de Microsoft Office e imágenes. Tika fue inicialmente codificado en Java. A menudo se configura como su propio servidor, haciéndolo accesible a través de HTTP. Este método permite que diferentes lenguajes de programación, como PHP, aprovechen las sólidas capacidades de Tika sin necesidad de crear procesos de análisis complejos desde cero.

La biblioteca soporta numerosas funciones como extracción de texto y HTML, extracción de metadatos, mejor manejo de errores, reconocimiento OCR, metadatos estandarizados para documentos, soporte de recursos locales y remotos, y mucho más. La biblioteca PHP-Apache-Tika conecta aplicaciones PHP con el servidor Apache Tika. En lugar de construir tus propios analizadores o convertidores, puedes confiar en esta biblioteca para enviar documentos al servidor Tika y recibir texto limpio o metadatos extraídos a cambio. Esto no solo simplifica el proceso de desarrollo, sino que también garantiza que tu aplicación se beneficie de las mejoras continuas de Tika y de su amplio soporte de formatos. Ya sea que estés desarrollando un complejo sistema de gestión de documentos o una herramienta ligera de análisis de contenido, la biblioteca PHP-Apache-Tika ofrece una solución fiable y flexible.

De un vistazo

Una visión general de las características de PHP-Apache-Tika.

Resumen de características

Realizar OCR
Agregar capacidades OCR
Reconocer texto en muchos idiomas
Convertir imágenes de texto
Texto de fuente reconocida
Buscar en PDF
Otros idiomas
Crear aplicaciones OCR
Guardar en el navegador
Extraer texto
Soporte multihilo

PHP-Apache-Tika

PHP-Apache-Tika soporta los formatos de archivo de compresión populares enumerados a continuación.

Lector

PNG, JPEG, BMP, TIFF, TGA, DICOM

Escritor

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Independencia de plataforma

PHP-Apache-Tika solo requiere el tiempo de ejecución de PHP.

PHP 5.1 y superiores.

PHP-Apache-Tika

Comenzando con PHP-Apache-Tika

La forma recomendada de instalar PHP-Apache-Tika es usando Composer. Por favor, use el siguiente comando para una instalación sin problemas.

Instalar PHP-Apache-Tika vía Composer

composer require vaites/php-apache-tika

Instalar PHP-Apache-Tika vía Github

git clone https://github.com/fizzday/OcrPHP.git

Puede descargar la biblioteca compartida compilada del repositorio de Github.

Extracción de Texto y HTML mediante PHP

Una de las características principales de la biblioteca PHP-Apache-Tika es su capacidad para extraer texto de varios formatos de documento. Esto puede ser particularmente útil al implementar funcionalidades de búsqueda o herramientas de análisis de contenido. La biblioteca soporta la extracción de texto plano de los documentos, facilitando su indexación, búsqueda o análisis. A continuación se muestra un fragmento de código que demuestra cómo TikaClient envía el documento al servidor Tika y recupera el contenido de texto plano, dejándolo listo para su posterior procesamiento o indexación.

¿Cómo extraer texto de un documento dentro de aplicaciones PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Extracción de Metadatos mediante la Biblioteca PHP

Más allá del texto, los documentos a menudo contienen metadatos valiosos como información del autor, fechas de creación y tipos de archivo. La biblioteca PHP-Apache-Tika puede extraer estos metadatos, permitiéndote crear aplicaciones más ricas. Este ejemplo muestra cómo obtener metadatos de un documento. El arreglo resultante puede incluir varios detalles según el tipo de archivo y su contenido.

¿Cómo extraer metadatos usando la Biblioteca PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Manejo de Múltiples Formatos de Archivo

El poder de Apache Tika radica en su soporte para múltiples formatos de archivo. Ya sea que trabajes con PDFs, DOCs, imágenes o incluso tipos de archivo menos comunes, esta biblioteca ayuda a garantizar que puedas extraer los datos necesarios sin preocuparte por particularidades de cada formato. Imagina que estás desarrollando un sistema de gestión de documentos donde los usuarios pueden subir diferentes tipos de archivo. Podrías usar la biblioteca para determinar tanto el contenido como los metadatos de cada archivo: