PHP библиотека с отворен код за OCR операции върху изображения
Безплатен PHP API за оптично разпознаване на символи за извършване на OCR операции върху изображения, сканирани документи и PDF файлове с помощта на Tesseract PHP библиотека.
Сред многобройните налични OCR инструменти, Tesseract OCR се откроява като един от най-мощните и гъвкави API, позволяващи на разработчиците на софтуер да създават приложения за разпознаване и извличане на текст от различни популярни визуални източници. Tesseract OCR за PHP е много полезна обвивка за работа с Tesseract OCR в PHP приложения. Библиотеката Tesseract OCR с отворен код за PHP може да подобри точността на OCR чрез предварителна обработка на изображението. Могат да се прилагат техники като преоразмеряване, бинаризация, премахване на шума и изкривяване, за да се подобри видимостта на текста и да се премахнат всякакви артефакти, които могат да попречат на разпознаването.
Tesseract OCR за PHP библиотека предлага няколко разширени функции и опции за персонализиране за подобряване на резултатите от OCR в PHP приложения, като работа с многоезични документи, указване на желания(те) език(ове) по време на OCR инициализация за подобряване на точността за конкретни езици, поддръжка на режими на сегментиране на страници, подобряване на точността на разпознаване за специализирани приложения, поддръжка на обучение за персонализирани шрифтове или символи или специфични текстови шаблони, подобряване на достъпността, цифровизация на документи, анализ на текст, извличане на данни и много други.
Използвайте PHP обвивката на Tesseract, за да прехвърлите предварително обработеното изображение към Tesseract OCR машината. Обвивката предоставя функции за изпълнение на OCR и извличане на разпознатия текст като резултат. Извлеченият текст може да изисква допълнителни стъпки за последваща обработка, като например проверка на правописа, форматиране или специфични за езика модификации. За тези цели могат да се използват PHP библиотеки като Symfony/string или Text_LanguageDetect. Чрез интегриране на Tesseract OCR във вашите PHP проекти, разработчиците на софтуер могат да рационализират обработката на документи, да автоматизират извличането на данни и да отключат ново ниво на ефективност и достъпност в своите приложения.
Първи стъпки с Tesseract OCR за PHP
Препоръчителният начин за инсталиране на Tesseract OCR за PHP е използването на Composer. Моля, използвайте следната команда за гладка инсталация.
Инсталирайте Tesseract OCR за PHP чрез Composer
$ composer require thiagoalessio/tesseract_ocr
Инсталирайте Tesseract OCR за PHP чрез Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Можете да изтеглите компилираната споделена библиотека от Github хранилище.
Извличане на текст от изображение в PHP приложения
Библиотеката Tesseract OCR с отворен код за PHP предоставя някои полезни функции за извличане на текст от изображения чрез PHP команди. Библиотеката предлага различни режими на сегментиране на страници за обработка на различни оформления и подредби на текст. Започнете процеса на извличане, като заредите изображението или документа, който съдържа текста, който искате да извлечете. Използвайте Tesseract PHP обвивката, за да прехвърлите предварително обработеното изображение към Tesseract OCR двигателя. Обвивката предоставя функции за изпълнение на OCR и извличане на разпознатия текст като резултат. Следващият пример показва основен процес на зареждане на изображение и извличане на текст от него с помощта на PHP команди.
Как да заредите изображение и да извлечете текст с помощта на PHP код?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Обработка на OCR изход в PHP приложения
Библиотеката Tesseract OCR с отворен код за PHP включва много полезни функции за запазване и работа с изходен текст на OCR в PHP приложения. Позволява запазване на изходящия текст в някои популярни формати като PDF, TXT, HTML, Word и много други. Позволява да се работи с разпознатия текст, извлечен от изображението. В зависимост от изискванията на вашето приложение може да се наложи да обработите или анализирате допълнително извлечения текст. Общите задачи включват валидиране на данни, почистване на текст, проверка на правописа, форматиране, интегриране с други системи за разширена обработка или специфични за езика модификации. Разработчиците на софтуер могат лесно да анализират големи обеми текстови данни, извлечени от документи, емисии в социални медии или обратна връзка от клиенти, за да извлекат прозрения, анализ на настроенията или моделиране на теми.
Извличане на данни за изображения, размер и запазване в PDF формат чрез PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();