PHP-библиотека с открытым исходным кодом для операций OCR на изображениях

Бесплатный API оптического распознавания символов PHP для выполнения операций оптического распознавания изображений, отсканированных документов и PDF-файлов с использованием библиотеки PHP Tesseract.

Среди многочисленных доступных инструментов OCR Tesseract OCR выделяется как один из самых мощных и универсальных API, позволяющий разработчикам программного обеспечения создавать приложения для распознавания и извлечения текста из различных популярных визуальных источников. Tesseract OCR для PHP — очень полезная оболочка для работы с Tesseract OCR внутри PHP-приложений. Библиотека Tesseract OCR для PHP с открытым исходным кодом может повысить точность распознавания за счет предварительной обработки изображения. Чтобы улучшить видимость текста и удалить любые артефакты, которые могут помешать распознаванию, можно применять такие методы, как изменение размера, бинаризация, удаление шума и исправление перекоса.

Библиотека Tesseract OCR для PHP предлагает несколько расширенных функций и вариантов настройки для улучшения результатов распознавания внутри приложений PHP, таких как обработка многоязычных документов, указание желаемого языка (языков) во время инициализации OCR для повышения точности для конкретных языков, поддержка режимов сегментации страниц, повышение точности распознавания для специализированных приложений, поддержка обучения использованию пользовательских шрифтов или символов или определенных текстовых шаблонов, повышение доступности, оцифровка документов, анализ текста, извлечение данных и многое другое.

Используйте PHP-оболочку Tesseract для передачи предварительно обработанного изображения в механизм OCR Tesseract. Оболочка предоставляет функции для выполнения OCR и получения в результате распознанного текста. Извлеченный текст может потребовать дополнительных шагов постобработки, таких как проверка орфографии, форматирование или изменения для конкретного языка. Для этих целей можно использовать библиотеки PHP, такие как Symfony/string или Text_LanguageDetect. Интегрируя Tesseract OCR в свои PHP-проекты, разработчики программного обеспечения могут оптимизировать обработку документов, автоматизировать извлечение данных и выйти на новый уровень эффективности и доступности своих приложений.

Краткий обзор

Обзор возможностей Tesseract OCR для PHP.

Обзор возможностей

<ул>

Выполнить распознавание текста

Добавить возможности распознавания

Распознавание текста изображения

Преобразование изображений текста

Текст распознанного шрифта

Поиск в PDF

Другие языки

Создание приложений для распознавания текста

Сохранить в браузере

Извлечь текст

Поддержка многопоточности

Tesseract OCR for PHP

Tesseract OCR для PHP поддерживает популярные форматы файлов сжатия, перечисленные ниже.

Читатель

PNG, JPEG, BMP, TIFF, TGA, DICOM

Писатель

PNG, JPEG, BMP, TIFF

Tesseract OCR for PHP

Независимость от платформы

Tesseract OCR для PHP требует только среды выполнения PHP.

PHP 5.1 и выше.

Tesseract OCR for PHP

Начало работы с Tesseract OCR для PHP

Рекомендуемый способ установки Tesseract OCR для PHP — использование Composer. Пожалуйста, используйте следующую команду для плавной установки.

Установить Tesseract OCR для PHP через Composer

$ composer require thiagoalessio/tesseract_ocr

Установите Tesseract OCR для PHP через Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git

Вы можете загрузить скомпилированную общую библиотеку из репозитория Github.

Извлечение текста из изображения в приложениях PHP

Библиотека Tesseract OCR для PHP с открытым исходным кодом предоставляет некоторые полезные функции для извлечения текста из изображений с помощью команд PHP. Библиотека предлагает различные режимы сегментации страниц для обработки различных макетов и расположения текста. Начните процесс извлечения, загрузив изображение или документ, содержащий текст, который вы хотите извлечь. Используйте PHP-оболочку Tesseract для передачи предварительно обработанного изображения в механизм OCR Tesseract. Оболочка предоставляет функции для выполнения OCR и получения в результате распознанного текста. В следующем примере показан базовый процесс загрузки изображения и извлечения из него текста с помощью команд PHP.

Как загрузить изображение и извлечь текст с помощью PHP-кода?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Обработка вывода OCR в приложениях PHP

Библиотека Tesseract OCR для PHP с открытым исходным кодом включает в себя очень полезные функции для сохранения и работы с выходным текстом OCR внутри приложений PHP. Это позволяет сохранять текст в некоторых популярных форматах, таких как PDF, TXT, HTML, Word и многих других. Это позволяет обрабатывать распознанный текст, извлеченный из изображения. В зависимости от требований вашего приложения вам может потребоваться дополнительная обработка или анализ извлеченного текста. Общие задачи включают проверку данных, очистку текста, проверку орфографии, форматирование, интеграцию с другими системами для расширенной обработки или модификации для конкретного языка. Разработчики программного обеспечения могут легко анализировать большие объемы текстовых данных, извлеченных из документов, социальных сетей или отзывов клиентов, для получения ценной информации, анализа настроений или моделирования тем.

Получить данные изображения, изменить размер и сохранить их в формате PDF через PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();