Biblioteca PHP de código aberto para operações de OCR em imagens
API PHP gratuita de reconhecimento óptico de caracteres para realizar operações de OCR em imagens, documentos digitalizados e PDFs usando a biblioteca Tesseract PHP.
Entre as inúmeras ferramentas de OCR disponíveis, o Tesseract OCR se destaca como uma das APIs mais poderosas e versáteis, permitindo que desenvolvedores de software criem aplicativos para reconhecer e extrair texto de diversas fontes visuais populares. Tesseract OCR para PHP é um wrapper muito útil para trabalhar com Tesseract OCR dentro de aplicativos PHP. A biblioteca Tesseract OCR para PHP de código aberto pode aumentar a precisão do OCR pré-processando a imagem. Técnicas como redimensionamento, binarização, remoção de ruído e alinhamento podem ser aplicadas para melhorar a visibilidade do texto e remover quaisquer artefatos que possam dificultar o reconhecimento.
A biblioteca Tesseract OCR para PHP oferece vários recursos avançados e opções de personalização para aprimorar os resultados de OCR em aplicativos PHP, como manipulação de documentos multilíngues, especificação do(s) idioma(s) desejado(s) durante a inicialização do OCR para melhorar a precisão de idiomas específicos, suporte a modos de segmentação de página, melhorando a precisão do reconhecimento para aplicativos especializados, suporte ao treinamento em fontes ou símbolos personalizados ou padrões de texto específicos, melhorando a acessibilidade, digitalização de documentos, análise de texto, extração de dados e muito mais.
Utilize o wrapper PHP do Tesseract para passar a imagem pré-processada para o mecanismo de OCR do Tesseract. O wrapper fornece funções para executar OCR e recuperar o texto reconhecido como resultado. O texto extraído pode exigir etapas adicionais de pós-processamento, como verificação ortográfica, formatação ou modificações específicas do idioma. Bibliotecas PHP como Symfony/string ou Text_LanguageDetect podem ser empregadas para esses propósitos. Ao integrar o Tesseract OCR em seus projetos PHP, os desenvolvedores de software podem agilizar o processamento de documentos, automatizar a extração de dados e desbloquear um novo nível de eficiência e acessibilidade em seus aplicativos.
Introdução ao Tesseract OCR para PHP
A maneira recomendada de instalar o Tesseract OCR para PHP é usando o Composer. Use o seguinte comando para uma instalação tranquila.
Instale o Tesseract OCR para PHP via Composer
$ composer require thiagoalessio/tesseract_ocr
Instale o Tesseract OCR para PHP via Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Você pode baixar a biblioteca compartilhada compilada no repositório Github.
Extrair texto de imagem dentro de aplicativos PHP
A biblioteca Tesseract OCR para PHP de código aberto oferece alguns recursos úteis para extrair texto de imagens usando comandos PHP. A biblioteca oferece diferentes modos de segmentação de página para lidar com vários layouts e arranjos de texto. Inicie o processo de extração carregando a imagem ou documento que contém o texto que deseja extrair. Utilize o wrapper Tesseract PHP para passar a imagem pré-processada para o mecanismo Tesseract OCR. O wrapper fornece funções para executar OCR e recuperar o texto reconhecido como resultado. O exemplo a seguir mostra um processo básico de carregamento de uma imagem e extração de texto dela usando comandos PHP.
Como carregar imagem e extrair texto usando código PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Tratando saída de OCR dentro de aplicativos PHP
A biblioteca de código aberto Tesseract OCR para PHP inclui recursos muito úteis para salvar e trabalhar com o texto de saída do OCR dentro de aplicativos PHP. Permite salvar o texto em alguns formatos populares como PDF, TXT, HTML, Word e muitos mais. Permite manipular o texto reconhecido extraído da imagem. Dependendo dos requisitos do seu aplicativo, pode ser necessário processar ou analisar ainda mais o texto extraído. As tarefas comuns incluem validação de dados, limpeza de texto, verificação ortográfica, formatação, integração com outros sistemas para processamento avançado ou modificações específicas de idioma. Os desenvolvedores de software podem analisar facilmente grandes volumes de dados de texto extraídos de documentos, feeds de mídia social ou feedback de clientes para obter insights, análise de sentimento ou modelagem de tópicos.
Recupere dados de imagem, dimensione-os e salve-os em formato PDF via API PHP
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();