PHP библиотека для извлечения текста из изображений на нескольких языках

Открытый PHP API оптического распознавания символов (OCR) позволяет загружать и сканировать изображения или документы, распознавать и извлекать текст из изображений на нескольких языках в PHP приложениях.

Технология оптического распознавания символов (OCR) стала незаменимым инструментом для извлечения текста из изображений и документов в наши дни. С ростом цифровой трансформации потребность в эффективных и точных решениях OCR стала как никогда актуальной. OcrPHP – очень мощная библиотека OCR с открытым исходным кодом, позволяющая разработчикам создавать надёжные и масштабируемые OCR‑приложения. Это PHP‑библиотека OCR, использующая движок Tesseract OCR, широко используемую и высоко оценённую технологию OCR, разработанную компанией Google. В библиотеке присутствует множество функций, таких как сканирование документов, извлечение текста из изображений, извлечение текста на определённом языке, извлечение текста из PDF и многое другое.

Библиотека OcrPHP включает продвинутые методы предварительной обработки изображений, такие как исправление наклона, удаление шумов и бинаризация, чтобы повысить точность OCR. Она поддерживает выполнение OCR на нескольких языках, включая английский, испанский, французский, немецкий, итальянский, португальский, китайский, японский и многие другие. Разработчики могут настраивать процесс OCR, изменяя параметры, такие как язык, режим сегментации страниц и настройки движка OCR. В библиотеку встроены надёжные механизмы обработки ошибок, обеспечивающие плавное и эффективное выполнение OCR‑операций. Благодаря поддержке нескольких языков, продвинутому сканированию изображений, пользовательским конфигурациям и простой интеграции, она позволяет разработчикам создавать универсальные инструменты распознавания текста с минимальными усилиями и низкой стоимостью.

Взгляд

Обзор функций OcrPHP.

Обзор функций

Выполнять OCR
Добавлять возможности OCR
Распознавать текст на многих языках
Конвертировать изображения текста
Распознавать шрифтовый текст
Поиск в PDF
Другие языки
Создавать OCR приложения
Сохранять в браузер
Извлекать текст
Поддержка многопоточности

OcrPHP

OcrPHP поддерживает популярные форматы файлов сжатия, перечисленные ниже.

Читатель

PNG, JPEG, BMP, TIFF, TGA, DICOM

Запись

PNG, JPEG, BMP, TIFF

OcrPHP

Платформенная независимость

Для OcrPHP требуется только среда выполнения PHP.

PHP 5.1 и выше.

OcrPHP

Начало работы с OcrPHP

Рекомендуемый способ установки OcrPHP – использование Composer. Пожалуйста, выполните следующую команду для быстрой установки.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Распознавание и извлечение текста из изображения с помощью PHP

Библиотека OcrPHP с открытым исходным кодом упрощает загрузку различных типов изображений и извлечение текста из них с помощью всего лишь нескольких строк кода PHP. Ниже приведён простой пример, использующий библиотеку Imagick для загрузки файла изображения и создания экземпляра класса OcrPHP. Затем разработчики могут задать язык и настройки движка OCR перед выполнением распознавания изображения с помощью метода recognize(). В конце выводится извлечённый текст с помощью метода getText().

How to Extract Text from an Image using PHP Library?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Распознавание текста на определённом языке с помощью PHP

Библиотека OcrPHP предоставляет поддержку нескольких языков для выполнения OCR‑операций в PHP‑приложениях. Независимо от того, на каком языке ваш текст — английском, китайском или любом другом поддерживаемом языке, OcrPHP справится с ним без проблем. Чтобы извлечь текст на определённом языке, передайте код языка в качестве параметра. Убедитесь, что соответствующая языковая модель Tesseract установлена. Ниже приведён пример, показывающий, как разработчики могут извлекать текст из изображений на китайском языке в PHP‑приложениях.

How to Extract Text from an Image in Chinses Language via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Пакетная обработка и автоматизация OCR с помощью PHP

Для разработчиков, создающих приложения обработки документов, пакетная обработка может стать ценным функционалом. OcrPHP с открытым исходным кодом упрощает перебор файлов изображений в каталоге и автоматическое извлечение текста из каждого из них. Это идеально подходит для автоматизации задач, таких как сканирование счетов, чеков или книг. Ниже приведён полезный пример, который сканирует все файлы .png в указанном каталоге, извлекает текст из каждого и выводит его. Вы можете расширить пример, сохраняя результаты в файл или базу данных, делая его мощным инструментом для обработки документов.

How to Extract Text from Multiple Images via PHP Library?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Пользовательская конфигурация и поддержка интеграции

Библиотека OcrPHP с открытым исходным кодом – универсальный и удобный для разработчиков инструмент, упрощающий интеграцию возможностей OCR в PHP‑проекты. Библиотека позволяет задавать пользовательские конфигурации Tesseract, такие как язык, режим сегментации страниц и параметры предварительной обработки изображений, предоставляя гибкость для настройки результатов OCR.