1. Məhsullar
  2.   Audio
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Nitqin tanınması üçün açıq mənbəli Python kitabxanası

Nitqin emalını və tanınma əməliyyatlarını dəstəkləyən Python API. O, həmçinin filtr banklarının log-enerjisi ilə yanaşı MFCC-ləri və filtr-bank enerjilərini dəstəkləyir. 

SpeechPykitabxanası Python əmrlərindən istifadə etməklə nitqin emalı, eləcə də tanınması və mühüm postprocessing əməliyyatları üçün bir sıra faydalı texnikalar təqdim etmişdir. Filtr banklarının log-enerjisi ilə yanaşı, MFCC-lər və filtr-bank enerjiləri kimi müxtəlif təkmil nitq xüsusiyyətləri SpeechPy kitabxanası tərəfindən tam dəstəklənir.

Kitabxana həmçinin nitqin tanınması (AS) və ya avtomatik nitqin tanınması (ASR) kimi dərin öyrənmə proqramları üçün bütün lazımi funksiyaları təmin etməyi hədəfləyir. O, səs siqnalından MFCC xüsusiyyətlərinin hesablanması, mel-filtr banklarının enerjisinin hesablanması, audio siqnaldan Mel-filtr bankının enerji xüsusiyyətlərinin hesablanması, müvəqqəti törəmə xüsusiyyətlərin çıxarılması, çıxarış kimi əsas nitq xüsusiyyətlərinin hesablanması üçün bir neçə vacib funksiya təmin etmişdir. mel tezliyi sepstral əmsalı və daha çox.

Previous Next

SpeechPy ilə işə başlayın

SpeechPy kitabxanasını quraşdırmağın ən asan yolu Python Paket İndeksindən (PyPI) istifadə etməkdir. Tam quraşdırma üçün aşağıdakı əmrdən istifadə edin.

PyPI istifadə edərək SpeechPy quraşdırın

 pip install speechpy 

Python vasitəsilə nitqin tanınması

Nitqin tanınması əsasən danışıq dilinin kompüterlər tərəfindən tanınması və mətnə çevrilməsi ilə əlaqədardır. Açıq mənbəli Python kitabxanası SpeechPy proqram tərtibatçılarına nitqin tanınması xüsusiyyətlərini dəstəkləyən proqramlar yaratmağa imkan verir. Bu, istifadəçilərə yazmaq əvəzinə danışaraq vaxta qənaət etməyə kömək edir. Beləliklə, istifadəçilərə öz cihazları ilə daha az səylə əlaqə saxlamağa kömək edir və texnoloji cihazları daha əlçatan və istifadəsini asanlaşdırır.

Audio Siqnaldan MFCC hesablayın

Python kitabxanası SpeechPy, öz tətbiqləri daxilində səs siqnalından MFCC xüsusiyyətlərini hesablamaq üçün tam dəstək verdi. Kitabxana siqnalın seçmə tezliyi, hər bir çərçivənin saniyələrlə uzunluğu,  ardıcıl kadrlar arasında saniyələrlə addım atma, filtr bankından filtrlər tətbiq etmək, FFT nöqtələrinin sayı, mel filtrlərinin ən aşağı zolaqlı kənarı kimi bir neçə mühüm MFCC xüsusiyyətlərini dəstəkləmişdir. , mel filtrlərinin ən yüksək zolaq kənarı, Cepstral əmsalların sayı və s.

Avtomatik kodlayıcılardan istifadə edərək səsi çıxarın

Açıq mənbəli Python kitabxanası SpeechPy kompüter proqramçılarına Python kodundan istifadə edərək audio məlumatları çıxarmağa imkan verir. Autoencoder neyron şəbəkələri üçün effektiv məlumat təqdimatını öyrənən çox effektiv öyrənmə texnikasıdır. Avtokodlayıcı şəbəkələri bir-birindən məlumatların giriş qatından daha qısa koda necə sıxılacağını öyrənir və sonra həmin kodu orijinal daxiletmə ilə ən yaxşı uyğunlaşan formata çıxarır.

 Azəri