PHP библиотека для извлечения текста из изображений на нескольких языках
Открытый PHP API оптического распознавания символов (OCR) позволяет загружать и сканировать изображения или документы, распознавать и извлекать текст из изображений на нескольких языках в PHP приложениях.
Технология оптического распознавания символов (OCR) стала незаменимым инструментом для извлечения текста из изображений и документов в наши дни. С ростом цифровой трансформации потребность в эффективных и точных решениях OCR стала как никогда актуальной. OcrPHP – очень мощная библиотека OCR с открытым исходным кодом, позволяющая разработчикам создавать надёжные и масштабируемые OCR‑приложения. Это PHP‑библиотека OCR, использующая движок Tesseract OCR, широко используемую и высоко оценённую технологию OCR, разработанную компанией Google. В библиотеке присутствует множество функций, таких как сканирование документов, извлечение текста из изображений, извлечение текста на определённом языке, извлечение текста из PDF и многое другое.
Библиотека OcrPHP включает продвинутые методы предварительной обработки изображений, такие как исправление наклона, удаление шумов и бинаризация, чтобы повысить точность OCR. Она поддерживает выполнение OCR на нескольких языках, включая английский, испанский, французский, немецкий, итальянский, португальский, китайский, японский и многие другие. Разработчики могут настраивать процесс OCR, изменяя параметры, такие как язык, режим сегментации страниц и настройки движка OCR. В библиотеку встроены надёжные механизмы обработки ошибок, обеспечивающие плавное и эффективное выполнение OCR‑операций. Благодаря поддержке нескольких языков, продвинутому сканированию изображений, пользовательским конфигурациям и простой интеграции, она позволяет разработчикам создавать универсальные инструменты распознавания текста с минимальными усилиями и низкой стоимостью.
Начало работы с OcrPHP
Рекомендуемый способ установки OcrPHP – использование Composer. Пожалуйста, выполните следующую команду для быстрой установки.
Install OcrPHP via Composer
composer require fizzday/ocrphpInstall OcrPHP via Github
git clone https://github.com/fizzday/OcrPHP.git You can download the compiled shared library from Github repository.
Распознавание и извлечение текста из изображения с помощью PHP
Библиотека OcrPHP с открытым исходным кодом упрощает загрузку различных типов изображений и извлечение текста из них с помощью всего лишь нескольких строк кода PHP. Ниже приведён простой пример, использующий библиотеку Imagick для загрузки файла изображения и создания экземпляра класса OcrPHP. Затем разработчики могут задать язык и настройки движка OCR перед выполнением распознавания изображения с помощью метода recognize(). В конце выводится извлечённый текст с помощью метода getText().
How to Extract Text from an Image using PHP Library?
require_once 'OcrPHP/autoload.php';
// Load the image file
$image = new Imagick('path/to/image.jpg');
// Create an instance of the OcrPHP class
$ocr = new OcrPHP();
// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// Perform OCR on the image
$result = $ocr->recognize($image);
// Print the extracted text
echo $result->getText();
Распознавание текста на определённом языке с помощью PHP
Библиотека OcrPHP предоставляет поддержку нескольких языков для выполнения OCR‑операций в PHP‑приложениях. Независимо от того, на каком языке ваш текст — английском, китайском или любом другом поддерживаемом языке, OcrPHP справится с ним без проблем. Чтобы извлечь текст на определённом языке, передайте код языка в качестве параметра. Убедитесь, что соответствующая языковая модель Tesseract установлена. Ниже приведён пример, показывающий, как разработчики могут извлекать текст из изображений на китайском языке в PHP‑приложениях.
How to Extract Text from an Image in Chinses Language via PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English
echo "Extracted Text (Chinese): \n" . $text;
Пакетная обработка и автоматизация OCR с помощью PHP
Для разработчиков, создающих приложения обработки документов, пакетная обработка может стать ценным функционалом. OcrPHP с открытым исходным кодом упрощает перебор файлов изображений в каталоге и автоматическое извлечение текста из каждого из них. Это идеально подходит для автоматизации задач, таких как сканирование счетов, чеков или книг. Ниже приведён полезный пример, который сканирует все файлы .png в указанном каталоге, извлекает текст из каждого и выводит его. Вы можете расширить пример, сохраняя результаты в файл или базу данных, делая его мощным инструментом для обработки документов.
How to Extract Text from Multiple Images via PHP Library?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
Пользовательская конфигурация и поддержка интеграции
Библиотека OcrPHP с открытым исходным кодом – универсальный и удобный для разработчиков инструмент, упрощающий интеграцию возможностей OCR в PHP‑проекты. Библиотека позволяет задавать пользовательские конфигурации Tesseract, такие как язык, режим сегментации страниц и параметры предварительной обработки изображений, предоставляя гибкость для настройки результатов OCR.