PHP библиотека за извличане на текст от изображения на множество езици

Отворен PHP API за оптично разпознаване на знаци позволява зареждане и сканиране на изображения или документи, разпознаване и извличане на текст от изображения на множество езици в PHP приложения.

Оптичната технология за разпознаване на знаци (OCR) се превърна в незаменим инструмент за извличане на текст от изображения и документи в наши дни. С нарастването на дигиталната трансформация нуждата от ефективни и точни OCR решения никога не е била по-належаща. OcrPHP е много мощна отворена OCR библиотека, която дава възможност на софтуерните разработчици да създават надеждни и мащабируеми OCR приложения. Това е PHP-базирана OCR библиотека, която използва Tesseract OCR двигателя, широко използвана и високо оценявана OCR технология, разработена от Google. Има множество функции, част от библиотеката, като сканиране на документи, извличане на текст от изображения, извличане на текст на конкретен език, извличане на текст от PDF файлове и много други.

OcrPHP библиотеката включва напреднали техники за предварителна обработка на изображения, като изправяне, премахване на шум и бинаризация, за подобряване на точността на OCR. Тя поддържа извършване на OCR на множество езици, включително английски, испански, френски, немски, италиански, португалски, китайски, японски и много други. Софтуерните разработчици могат да персонализират процеса на OCR, като настройват параметри като език, режим на сегментация на страницата и настройки на OCR двигателя. Включени са надеждни механизми за обработка на грешки, за да се гарантира, че OCR операциите се изпълняват гладко и ефективно. С функции като поддръжка на множество езици, напреднало сканиране на изображения, персонализирани конфигурации и лесна интеграция, тя дава възможност на разработчиците да създават универсални инструменти за разпознаване на текст с малко усилия и ниска цена.

Общ преглед

Общ преглед на функциите на OcrPHP.

Features Overview

Извършване на OCR
Добавяне на OCR възможности
Разпознаване на текст на много езици
Конвертиране на изображения с текст
Разпознат текст от шрифт
Търсене в PDF
Други езици
Създаване на OCR приложения
Запис в браузъра
Извличане на текст
Поддръжка на многопоточност

OcrPHP

OcrPHP поддържа популярни формати за компресиране на файлове, изброени по-долу.

Четец

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записвач

PNG, JPEG, BMP, TIFF

OcrPHP

Платформена независимост

OcrPHP изисква само PHP Runtime.

PHP 5.1 и по-горе.

OcrPHP

Започнете с OcrPHP

Препоръчителният начин за инсталиране на OcrPHP е чрез Composer. Моля, използвайте следната команда за безпроблемна инсталация.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

Можете да изтеглите компилираната споделена библиотека от Github хранилището.

Разпознаване и извличане на текст от изображение чрез PHP

Отворената OcrPHP библиотека улеснява софтуера да зарежда различни типове изображения и да извлича текст от тях с няколко реда PHP код. Ето много прост пример, който използва библиотеката Imagick за зареждане на файл с изображение и създаване на инстанция на класа OcrPHP. След това разработчиците могат да зададат езика и настройките на OCR двигателя, преди да извършат OCR върху изображението, използвайки метода recognize(). Накрая, той отпечатва извлечения текст, използвайки метода getText().

How to Extract Text from an Image using PHP Library?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Разпознаване на текст на конкретен език чрез PHP

Библиотеката OcrPHP предоставя поддръжка за множество езици за извършване на OCR операции в PHP приложения. Независимо дали текстът ви е на английски, китайски или друг поддържан език, OcrPHP може да го обработи безпроблемно. За да извлечете текст на конкретен език, подайте кода на езика като параметър. Уверете се, че съответният Tesseract езиков модел е инсталиран. Следният пример показва как разработчиците могат да извлекат от изображения на китайски език в PHP приложения.

How to Extract Text from an Image in Chinses Language via PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Пакетна обработка и OCR автоматизация чрез PHP

За софтуерните разработчици, създаващи приложения за обработка на документи, пакетната обработка може да бъде ценна функция. Отворената OcrPHP улеснява разработчиците да обхождат директория с файлове с изображения и автоматично да извличат текст от всеки от тях. Това е перфектно за автоматизиране на задачи като сканиране на фактури, разписки или книги. Ето много полезен пример, който сканира всички .png файлове в указаната директория, извлича текста от всеки и го отпечатва. Можете да разширите това, за да запазвате изхода във файл или база данни, превръщайки го в мощен инструмент за обработка на документи.

How to Extract Text from Multiple Images via PHP Library?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Персонализирана конфигурация и поддръжка на интеграция

Отворената OcrPHP е гъвкава и удобна за разработчиците библиотека, която опростява интегрирането на OCR възможности в PHP проекти. Библиотеката ви позволява да зададете персонализирани конфигурации за Tesseract, като език, режим на сегментация на страницата и параметри за предварителна обработка на изображенията, предлагайки гъвкавост за адаптиране на OCR резултатите.