API PHP Gratuita para Extrair Texto e Metadados de PDF e Imagens

Biblioteca PHP de Reconhecimento Óptico de Caracteres de Código Aberto permite Extrair Texto, Metadados e HTML de PDF, DOCX, Imagens (JPEG, PNG) e Outros Documentos em Vários Idiomas dentro de Aplicações PHP.

No campo de desenvolvimento de software, lidar com texto de diferentes tipos de arquivos pode ser complicado, mas é uma tarefa frequente. Seja criando um sistema para gerenciar documentos, uma ferramenta para analisar conteúdo ou um motor de busca, ser capaz de extrair texto de PDFs, documentos Word, planilhas e outros formatos de arquivo é crucial. É aqui que a biblioteca PHP-Apache-Tika se torna valiosa. Apache Tika é um kit de ferramentas flexível feito para gerenciar tarefas de análise de conteúdo. Você pode usar o Tika para extrair metadados e texto de vários tipos de arquivos como PDFs, arquivos Microsoft Office e imagens. O Tika foi inicialmente codificado em Java. Geralmente ele é configurado como um servidor próprio, tornando‑se acessível via HTTP. Esse método permite que diferentes linguagens de programação, como PHP, aproveitem as fortes capacidades do Tika sem precisar criar processos de análise complexos do zero.

A biblioteca oferece inúmeras funcionalidades, como extração de texto e HTML, extração de metadados, tratamento de erros aprimorado, reconhecimento OCR, metadados padronizados para documentos, suporte a recursos locais e remotos, entre outras. A biblioteca PHP-Apache-Tika conecta aplicações PHP ao servidor Apache Tika. Em vez de construir seus próprios analisadores ou conversores, você pode usar esta biblioteca para enviar documentos ao servidor Tika e receber texto limpo ou metadados extraídos. Isso simplifica o processo de desenvolvimento e garante que sua aplicação se beneficie das melhorias contínuas do Tika e do amplo suporte a formatos. Seja desenvolvendo um sistema complexo de gerenciamento de documentos ou uma ferramenta leve de análise de conteúdo, a biblioteca PHP-Apache-Tika oferece uma solução confiável e flexível.

Visão Geral

Uma visão geral dos recursos do PHP-Apache-Tika.

Visão Geral dos Recursos

Executar OCR
Adicionar Capacidades OCR
Reconhecer texto em muitos idiomas
Converter Imagens de texto
Texto de Fonte Reconhecida
Pesquisar PDF
Outros Idiomas
Criar aplicativos OCR
Salvar no navegador
Extrair Texto
Suporte a Multithreading

PHP-Apache-Tika

PHP-Apache-Tika suporta os formatos de compressão populares listados abaixo.

Leitor

PNG, JPEG, BMP, TIFF, TGA, DICOM

Gravador

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Independência de Plataforma

PHP-Apache-Tika requer apenas o Runtime PHP.

PHP 5.1 e superior.

PHP-Apache-Tika

Começando com PHP-Apache-Tika

A maneira recomendada de instalar o PHP-Apache-Tika é usando o Composer. Por favor, use o comando a seguir para uma instalação tranquila.

Instalar PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Instalar PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

Você pode baixar a biblioteca compartilhada compilada do repositório Github .

Extração de Texto e HTML via PHP

Um dos principais recursos da biblioteca PHP-Apache-Tika é sua capacidade de extrair texto de vários formatos de documento. Isso pode ser particularmente útil ao implementar funcionalidades de busca ou ferramentas de análise de conteúdo. A biblioteca suporta a extração de texto simples dos documentos, facilitando a indexação, busca ou análise do conteúdo. A seguir, um trecho de código que demonstra como o TikaClient envia o documento ao servidor Tika e recupera o conteúdo de texto simples, preparando‑o para processamento ou indexação adicionais.

Como Extrair Texto de um Documento em Aplicações PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Extração de Metadados via Biblioteca PHP

Além do texto, os documentos frequentemente contêm metadados valiosos, como informações do autor, datas de criação e tipos de arquivo. A biblioteca PHP-Apache-Tika pode extrair esses metadados, permitindo que você construa aplicações mais ricas. Este exemplo demonstra como recuperar metadados de um documento. O array resultante pode incluir diversos detalhes dependendo do tipo de arquivo e de seu conteúdo.

Como Extrair Metadados usando a Biblioteca PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Manipulação de Múltiplos Formatos de Arquivo

O poder do Apache Tika reside no suporte a múltiplos formatos de arquivo. Seja lidando com PDFs, DOCs, imagens ou até tipos de arquivo menos comuns, esta biblioteca ajuda a garantir que você possa extrair os dados necessários sem se preocupar com particularidades de cada formato. Imagine que você está desenvolvendo um sistema de gerenciamento de documentos onde os usuários podem enviar diferentes tipos de arquivos. Você poderia usar a biblioteca para determinar tanto o conteúdo quanto os metadados de cada arquivo: