Biblioteca PHP de código abierto para operaciones OCR en imágeness
API gratuita de reconocimiento óptico de caracteres PHP para realizar operaciones de OCR en imágenes, documentos escaneados y archivos PDF utilizando la biblioteca PHP Tesseract.
Entre las numerosas herramientas de OCR disponibles, Tesseract OCR se destaca como una de las API más potentes y versátiles que permite a los desarrolladores de software crear aplicaciones para reconocer y extraer texto de diversas fuentes visuales populares. Tesseract OCR para PHP es un contenedor muy útil para trabajar con Tesseract OCR dentro de aplicaciones PHP. La biblioteca Tesseract OCR para PHP de código abierto puede mejorar la precisión del OCR mediante el preprocesamiento de la imagen. Se pueden aplicar técnicas como cambio de tamaño, binarización, eliminación de ruido y corrección de inclinación para mejorar la visibilidad del texto y eliminar cualquier artefacto que pueda dificultar el reconocimiento.
La biblioteca Tesseract OCR para PHP ofrece varias funciones avanzadas y opciones de personalización para mejorar los resultados de OCR dentro de aplicaciones PHP, como el manejo de documentos multilingües, la especificación de los idiomas deseados durante la inicialización de OCR para mejorar la precisión de idiomas específicos, compatibilidad con modos de segmentación de páginas, mejorar la precisión del reconocimiento para aplicaciones especializadas, soporte de capacitación sobre fuentes o símbolos personalizados, o patrones de texto específicos, mejorar la accesibilidad, digitalización de documentos, análisis de texto, extracción de datos y mucho más.
Utilice el contenedor PHP de Tesseract para pasar la imagen preprocesada al motor Tesseract OCR. El contenedor proporciona funciones para ejecutar OCR y recuperar el texto reconocido como resultado. El texto extraído puede requerir pasos de posprocesamiento adicionales, como revisión ortográfica, formato o modificaciones específicas del idioma. Para estos fines se pueden utilizar bibliotecas PHP como Symfony/string o Text_LanguageDetect. Al integrar Tesseract OCR en sus proyectos PHP, los desarrolladores de software pueden optimizar el procesamiento de documentos, automatizar la extracción de datos y desbloquear un nuevo nivel de eficiencia y accesibilidad en sus aplicaciones.
Introducción a Tesseract OCR para PHP
La forma recomendada de instalar Tesseract OCR para PHP es utilizar Composer. Utilice el siguiente comando para una instalación sin problemas.
Instalar Tesseract OCR para PHP mediante Composer
$ composer require thiagoalessio/tesseract_ocr
Instalar Tesseract OCR para PHP a través de Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Puedes descargar la biblioteca compartida compilada desde el repositorio Github.
Extraer texto de una imagen dentro de aplicaciones PHP
La biblioteca de código abierto Tesseract OCR para PHP ha proporcionado algunas características útiles para extraer texto de imágenes usando comandos PHP. La biblioteca ofrece diferentes modos de segmentación de páginas para manejar varios diseños y disposiciones de texto. Inicie el proceso de extracción cargando la imagen o documento que contiene el texto que desea extraer. Utilice el contenedor PHP de Tesseract para pasar la imagen preprocesada al motor Tesseract OCR. El contenedor proporciona funciones para ejecutar OCR y recuperar el texto reconocido como resultado. El siguiente ejemplo muestra un proceso básico de cargar una imagen y extraer texto de ella usando comandos PHP.
¿Cómo cargar imágenes y extraer texto usando código PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Manejo de la salida OCR dentro de aplicaciones PHP
La biblioteca de código abierto Tesseract OCR para PHP ha incluido funciones muy útiles para guardar y trabajar con el texto de salida de OCR dentro de aplicaciones PHP. Permite guardar el texto en algunos formatos populares como PDF, TXT, HTML, Word y muchos más. Permite manejar el texto reconocido extraído de la imagen. Dependiendo de los requisitos de su aplicación, es posible que necesite procesar o analizar más el texto extraído. Las tareas comunes incluyen validación de datos, limpieza de texto, revisión ortográfica, formateo, integración con otros sistemas para procesamiento avanzado o modificaciones específicas del idioma. Los desarrolladores de software pueden analizar fácilmente grandes volúmenes de datos de texto extraídos de documentos, feeds de redes sociales o comentarios de clientes para obtener información valiosa, análisis de sentimientos o modelado de temas.
Recuperar datos de imagen, dimensionarlos y guardarlos en formato PDF a través de PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();