Şəkillər üzərində OCR əməliyyatları üçün Açıq Mənbəli PHP Kitabxanası
Tesseract PHP kitabxanasından istifadə edərək Şəkillər, Skan edilmiş Sənədlər və PDF-lər üzərində OCR əməliyyatlarını yerinə yetirmək üçün pulsuz PHP Optik Xarakter Tanıma API.
Mövcud olan çoxsaylı OCR alətləri arasında Tesseract OCR proqram tərtibatçılarına müxtəlif məşhur vizual mənbələrdən mətni tanımaq və çıxarmaq üçün proqramlar yaratmağa imkan verən ən güclü və çox yönlü API-lərdən biri kimi seçilir. PHP üçün Tesseract OCR PHP proqramları daxilində Tesseract OCR ilə işləmək üçün çox faydalı sarğıdır. PHP kitabxanası üçün açıq mənbəli Tesseract OCR təsviri əvvəlcədən emal etməklə OCR dəqiqliyini artıra bilər. Mətnin görünməsini artırmaq və tanınmağa mane ola biləcək hər hansı artefaktları silmək üçün ölçüsünü dəyişmə, binarlaşdırma, səs-küyün aradan qaldırılması və əyrilik kimi üsullar tətbiq oluna bilər.
PHP kitabxanası üçün Tesseract OCR PHP proqramları daxilində OCR nəticələrini təkmilləşdirmək üçün bir neçə təkmil xüsusiyyətlər və fərdiləşdirmə variantları təklif edir, məsələn, çoxdilli sənədlərlə işləmək, xüsusi dillər üçün dəqiqliyi yaxşılaşdırmaq üçün OCR-nin işə salınması zamanı istədiyiniz dil(lər)in müəyyən edilməsi, səhifə seqmentləşdirmə rejimlərinin dəstəyi, ixtisaslaşdırılmış proqramlar üçün tanınma dəqiqliyini təkmilləşdirmək, fərdi şriftlər və ya simvollar və ya xüsusi mətn nümunələri üzrə təlim dəstəyi, əlçatanlığı təkmilləşdirmək, sənədlərin rəqəmsallaşdırılması, mətn analitikası, məlumatların çıxarılması və sair.
Əvvəlcədən işlənmiş təsviri Tesseract OCR mühərrikinə ötürmək üçün Tesseract PHP sarğısından istifadə edin. Sarmalayıcı OCR-ni yerinə yetirmək və nəticədə tanınan mətni əldə etmək funksiyalarını təmin edir. Çıxarılan mətn orfoqrafik yoxlama, formatlaşdırma və ya dilə xas dəyişikliklər kimi əlavə emaldan sonrakı addımları tələb edə bilər. Bu məqsədlər üçün Symfony/string və ya Text_LanguageDetect kimi PHP kitabxanalarından istifadə edilə bilər. Tesseract OCR-ni PHP layihələrinizə inteqrasiya etməklə proqram tərtibatçıları sənədlərin işlənməsini sadələşdirə, məlumatların çıxarılmasını avtomatlaşdıra və tətbiqlərində yeni səmərəlilik və əlçatanlıq səviyyəsini aça bilər.
PHP üçün Tesseract OCR ilə işə başlayın
PHP üçün Tesseract OCR quraşdırmanın tövsiyə olunan yolu Composer-dən istifadə etməkdir. Düzgün quraşdırma üçün aşağıdakı əmrdən istifadə edin.
Bəstəkar vasitəsilə PHP üçün Tesseract OCR quraşdırın
$ composer require thiagoalessio/tesseract_ocr
Github vasitəsilə PHP üçün Tesseract OCR quraşdırın
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Tərtib olunmuş paylaşılan kitabxananı Github repozitoriyasından endirə bilərsiniz.
PHP Proqramları daxilində Şəkildən Mətni çıxarın
PHP kitabxanası üçün açıq mənbəli Tesseract OCR PHP əmrlərindən istifadə edərək şəkillərdən mətn çıxarmaq üçün bəzi faydalı xüsusiyyətlər təqdim etmişdir. Kitabxana müxtəlif tərtibatları və mətn tənzimləmələrini idarə etmək üçün müxtəlif səhifə seqmentasiya rejimləri təklif edir. Çıxarmaq istədiyiniz mətni ehtiva edən şəkil və ya sənədi yükləyərək çıxarma prosesinə başlayın. Əvvəlcədən işlənmiş təsviri Tesseract OCR mühərrikinə ötürmək üçün Tesseract PHP sarğısından istifadə edin. Sarmalayıcı OCR-ni yerinə yetirmək və nəticədə tanınan mətni əldə etmək funksiyalarını təmin edir. Aşağıdakı nümunə PHP əmrlərindən istifadə edərək şəkil yükləmək və ondan mətn çıxarmaq üçün əsas prosesi göstərir.
PHP kodundan istifadə edərək Şəkili necə yükləmək və mətni çıxarmaq olar?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP Tətbiqlərində OCR Çıxışının idarə edilməsi
PHP kitabxanası üçün açıq mənbəli Tesseract OCR proqramı PHP proqramları daxilində OCR-nin çıxış mətnini saxlamaq və onunla işləmək üçün çox faydalı funksiyaları özündə birləşdirir. Bu, mətni PDF, TXT, HTML, Word və daha çox kimi məşhur formatlarda saxlamağa imkan verir. Şəkildən çıxarılan tanınmış mətni idarə etməyə imkan verir. Tətbiqinizin tələblərindən asılı olaraq, çıxarılmış mətni əlavə emal etməli və ya təhlil etməlisiniz. Ümumi vəzifələrə məlumatların yoxlanılması, mətnin təmizlənməsi, orfoqrafiya yoxlanılması, formatlaşdırma, qabaqcıl emal və ya dilə xas dəyişikliklər üçün digər sistemlərlə inteqrasiya daxildir. Proqram tərtibatçıları fikirlər, əhval-ruhiyyə təhlili və ya mövzu modelləşdirməsi əldə etmək üçün sənədlərdən, sosial media lentlərindən və ya müştəri rəylərindən çıxarılan böyük həcmli mətn məlumatlarını asanlıqla təhlil edə bilərlər.
Şəkil Məlumatını, Ölçüsünü Alın və PHP API vasitəsilə PDF Formatında Saxlayın
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();