1. Produktai
  2.   Garsas
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Atvirojo kodo Python biblioteka, skirta kalbos atpažinimui

Python API, palaikanti kalbos apdorojimą ir atpažinimo operacijas. Jis taip pat palaiko MFCC ir filtrų blokų energiją kartu su filtrų bankų logine energija. 

Biblioteka SpeechPy pateikė naudingų kalbos apdorojimo, taip pat atpažinimo ir svarbių tolesnio apdorojimo operacijų rinkinį, naudojant Python komandas. SpeechPy biblioteka visiškai palaiko įvairias pažangias kalbos funkcijas, pvz., MFCC ir filtrų banko energiją, kartu su filtrų bankų logine energija.

Biblioteka taip pat siekia suteikti visas reikalingas funkcijas giliojo mokymosi programoms, tokioms kaip kalbos atpažinimas (AS) arba automatinis kalbos atpažinimas (ASR). Jis suteikė keletą svarbių funkcijų, skirtų apskaičiuojant pagrindines kalbos ypatybes, pvz., MFCC ypatybių apskaičiavimą iš garso signalo, mel-filtro blokų energijos skaičiavimą, Mel-filtro bloko energijos ypatybių žurnalo skaičiavimą iš garso signalo, laikinų išvestinių savybių ištraukimą, išgavimą. mel dažnio cepstralio koeficientas ir daugelis kitų.

Previous Next

Darbo su SpeechPy pradžia

Lengviausias būdas įdiegti SpeechPy biblioteką yra naudoti Python Package Index (PyPI). Norėdami visiškai įdiegti, naudokite šią komandą.

Įdiekite SpeechPy naudodami PyPI

 pip install speechpy 

Kalbos atpažinimas per Python

Kalbos atpažinimas daugiausia susijęs su šnekamosios kalbos atpažinimu ir vertimu į tekstą kompiuteriu. Atvirojo kodo Python biblioteka SpeechPy leidžia programinės įrangos kūrėjams kurti programas, palaikančias kalbos atpažinimo funkcijas. Tai padeda vartotojams sutaupyti laiko kalbant, o ne rašant. Taip padedama vartotojams bendrauti su savo įrenginiais su mažiau pastangų, o technologiniai įrenginiai tampa prieinamesni ir lengviau naudojami.

Apskaičiuokite MFCC iš garso signalo

Python biblioteka SpeechPy suteikė visišką palaikymą MFCC funkcijoms skaičiuoti iš garso signalo savo programose. Biblioteka palaiko keletą svarbių MFCC funkcijų, pvz., signalo atrankos dažnį, kiekvieno kadro ilgį sekundėmis, žingsnį tarp nuoseklių kadrų sekundėmis, filtrų bloko filtrų taikymą, FFT taškų skaičių, žemiausią mel filtrų juostos kraštą. , aukščiausias mel filtrų juostos kraštas, cepstralių koeficientų skaičius ir kt.

Išskleiskite garsą naudodami automatinius kodavimo įrenginius

Atvirojo kodo Python biblioteka SpeechPy leidžia kompiuterių programuotojams išgauti garso duomenis naudojant Python kodą. Autoencoder yra labai efektyvi neuroninių tinklų mokymosi technika, kuri mokosi efektyvių duomenų atvaizdų. Autoencoder tinklai mokosi vieni iš kitų, kaip suspausti duomenis iš įvesties sluoksnio į trumpesnį kodą, o tada išskleisti tą kodą į bet kokį formatą, kuris geriausiai atitinka pradinę įvestį.

 Lietuvių