PHP-библиотека с открытым исходным кодом для операций OCR на изображениях
Бесплатный API оптического распознавания символов PHP для выполнения операций оптического распознавания изображений, отсканированных документов и PDF-файлов с использованием библиотеки PHP Tesseract.
Среди многочисленных доступных инструментов OCR Tesseract OCR выделяется как один из самых мощных и универсальных API, позволяющий разработчикам программного обеспечения создавать приложения для распознавания и извлечения текста из различных популярных визуальных источников. Tesseract OCR для PHP — очень полезная оболочка для работы с Tesseract OCR внутри PHP-приложений. Библиотека Tesseract OCR для PHP с открытым исходным кодом может повысить точность распознавания за счет предварительной обработки изображения. Чтобы улучшить видимость текста и удалить любые артефакты, которые могут помешать распознаванию, можно применять такие методы, как изменение размера, бинаризация, удаление шума и исправление перекоса.
Библиотека Tesseract OCR для PHP предлагает несколько расширенных функций и вариантов настройки для улучшения результатов распознавания внутри приложений PHP, таких как обработка многоязычных документов, указание желаемого языка (языков) во время инициализации OCR для повышения точности для конкретных языков, поддержка режимов сегментации страниц, повышение точности распознавания для специализированных приложений, поддержка обучения использованию пользовательских шрифтов или символов или определенных текстовых шаблонов, повышение доступности, оцифровка документов, анализ текста, извлечение данных и многое другое.
Используйте PHP-оболочку Tesseract для передачи предварительно обработанного изображения в механизм OCR Tesseract. Оболочка предоставляет функции для выполнения OCR и получения в результате распознанного текста. Извлеченный текст может потребовать дополнительных шагов постобработки, таких как проверка орфографии, форматирование или изменения для конкретного языка. Для этих целей можно использовать библиотеки PHP, такие как Symfony/string или Text_LanguageDetect. Интегрируя Tesseract OCR в свои PHP-проекты, разработчики программного обеспечения могут оптимизировать обработку документов, автоматизировать извлечение данных и выйти на новый уровень эффективности и доступности своих приложений.
Начало работы с Tesseract OCR для PHP
Рекомендуемый способ установки Tesseract OCR для PHP — использование Composer. Пожалуйста, используйте следующую команду для плавной установки.
Установить Tesseract OCR для PHP через Composer
$ composer require thiagoalessio/tesseract_ocr
Установите Tesseract OCR для PHP через Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Вы можете загрузить скомпилированную общую библиотеку из репозитория Github.
Извлечение текста из изображения в приложениях PHP
Библиотека Tesseract OCR для PHP с открытым исходным кодом предоставляет некоторые полезные функции для извлечения текста из изображений с помощью команд PHP. Библиотека предлагает различные режимы сегментации страниц для обработки различных макетов и расположения текста. Начните процесс извлечения, загрузив изображение или документ, содержащий текст, который вы хотите извлечь. Используйте PHP-оболочку Tesseract для передачи предварительно обработанного изображения в механизм OCR Tesseract. Оболочка предоставляет функции для выполнения OCR и получения в результате распознанного текста. В следующем примере показан базовый процесс загрузки изображения и извлечения из него текста с помощью команд PHP.
Как загрузить изображение и извлечь текст с помощью PHP-кода?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Обработка вывода OCR в приложениях PHP
Библиотека Tesseract OCR для PHP с открытым исходным кодом включает в себя очень полезные функции для сохранения и работы с выходным текстом OCR внутри приложений PHP. Это позволяет сохранять текст в некоторых популярных форматах, таких как PDF, TXT, HTML, Word и многих других. Это позволяет обрабатывать распознанный текст, извлеченный из изображения. В зависимости от требований вашего приложения вам может потребоваться дополнительная обработка или анализ извлеченного текста. Общие задачи включают проверку данных, очистку текста, проверку орфографии, форматирование, интеграцию с другими системами для расширенной обработки или модификации для конкретного языка. Разработчики программного обеспечения могут легко анализировать большие объемы текстовых данных, извлеченных из документов, социальных сетей или отзывов клиентов, для получения ценной информации, анализа настроений или моделирования тем.
Получить данные изображения, изменить размер и сохранить их в формате PDF через PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();