Veb Tətbiqlərinə OCR əlavə etmək və idarə etmək üçün Açıq Mənbə JavaScript API
JS Veb Tətbiqlərinə Optik Xarakter Tanıma (OCR) funksiyasını əlavə etmək və Çap və ya Əlyazma mətnin şəkillərini maşınla oxuna bilən Mətnə pulsuz çevirmək üçün Aparıcı Pulsuz JavaScript Kitabxanası.
Tesseract.js çox faydalı açıq mənbəli JavaScript kitabxanasıdır ki, o, proqram tərtibatçılarına minimum səy və xərclə optik xarakter tanıma (OCR) funksiyalarını veb proqramlarına inteqrasiya etməyə imkan verir. OCR çap edilmiş və ya əl ilə yazılmış mətnin şəkillərinin maşın tərəfindən oxuna bilən mətnə çevrilməsi prosesidir. Tesseract.js məşhur Tesseract OCR mühərrikinin portudur, ilk olaraq 1980-ci illərdə Hewlett-Packard tərəfindən hazırlanmış və daha sonra Google tərəfindən saxlanılmışdır. Tesseract.js 100-dən çox dili tanıya bilər ki, bu da onu veb tətbiqlərinə OCR funksionallığı əlavə etmək istəyən tərtibatçılar üçün güclü alətə çevirir.
Tesseract.js-ni idarə etmək çox asandır və skan edilmiş sənədlərdən, qəbzlərdən və vizit kartlarından mətn çıxarmaq, məlumat daxiletmə tapşırıqlarını avtomatlaşdırmaq, eləcə də veb proqramlar daxilində axtarış funksionallığını artırmaq kimi müxtəlif tapşırıqlar üçün istifadə edilə bilər. Tesseract.js-in əsas üstünlüklərindən biri, hətta daxil edilən təsvir keyfiyyətsiz və ya təsvir ölçüsündə olduqda belə, mətni tanımaq qabiliyyətidir. Kitabxana OCR nəticələrinin dəqiqliyini artırmaq üçün maşın öyrənmə alqoritmlərindən istifadə edir. O, həmçinin səhifə tərtibatı təhlilini həyata keçirə və şəkil daxilində maraq dairələrini aşkar edə bilər.
Tesseract.js istifadəsi asanlığı, eləcə də güclü OCR imkanları sayəsində populyarlaşır və həm brauzerdə, həm də NodeJS ilə serverdə rahat işlədilə bilər. O, proqram tərtibatçılarına dil, səhifə seqmentasiya rejimi və ağ siyahı simvolları kimi OCR seçimlərini konfiqurasiya etməyə imkan verən sadə API təmin edir. Onun keyfiyyətsiz şəkillərdən mətni tanımaq qabiliyyəti və bir çox dillər üçün dəstəyi onu geniş proqramlar üçün dəyərli alətə çevirir və veb tətbiqlərinə OCR əlavə etmək istəyən tərtibatçılar üçün əla seçimdir.
Tesseract.js ilə işə başlamaq
Tesseract.js-i quraşdırmaq üçün tövsiyə olunan yol npm-dən istifadə etməkdir. Rahat quraşdırma üçün aşağıdakı əmrdən istifadə edin
Tesseract.jsvia npm quraşdırın
npm install tesseract.js
Siz onu əl ilə də quraşdıra bilərsiniz; ən son buraxılış fayllarını birbaşa GitHub deposundan endirin.
JavaScript API vasitəsilə Şəkli Mətnə çevirin
Açıq mənbəli JavaScript kitabxanası Tesseract.js proqram tərtibatçılarına BMP, JPG, PNG, PBM, WebP və daha çox kimi müxtəlif növ şəkillərlə işləməyi asanlaşdırır. Kitabxana şəkillərdə, PDF-lərdə və skan edilmiş sənədlərdə mətnlərin işlənməsini avtomatlaşdırmaq üçün şəkillərdən mətn çıxarmağı dəstəkləyir. Aşağıdakı nümunə yalnız bir neçə sətir kodla şəklin və ondan çıxarılan mətnin necə yüklənəcəyini göstərir. Dil arqumenti şəkillərin emalında istifadə olunacaq öyrədilmiş dil məlumatlarını müəyyən etmək üçün istifadə olunur. Proqram tərtibatçıları burada bir çox dildən istifadə edə bilərlər.
JavaScript API istifadə edərək Şəkili Mətnə Necə Çevirmək olar?
Tesseract.recognize(
image,language,
{
logger: m => console.log(m)
}
)
.catch (err => {
console.error(err);
})
.then(result => {
console.log(result);
})
}
Şəkil Bölgəsini oxuyun və JS API vasitəsilə mətni çıxarın
Açıq mənbəli JavaScript kitabxanası təsvirin içərisində müəyyən sahəni oxumaq və JavaScript proqramları daxilində onun məlumatlarını ələ keçirmək üçün çox faydalı funksiyaları ehtiva edir. API təsvir sahəsinin tutulmasını dəstəkləyir və daxili güclü OCR mühərrikindən istifadə edərək bu regionda mətni tanımağa çalışır. Aşağıdakı nümunələr proqram tərtibatçılarının şəkilə URL-i necə təmin edə biləcəyini və API-nin seçilmiş sahədə mətni asanlıqla aşkarlaya və tanıya biləcəyini göstərir.
JS API vasitəsilə Şəklin Seçilmiş Bölgəsində Mətni Oxuyun və Tanıyın
const { createWorker } = require('tesseract.js');
const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
console.log(text);
await worker.terminate();
})();