1. produkty
  2.   Zvuk
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Open Source Python knihovna pro rozpoznávání řeči

Python API, které podporuje zpracování řeči i operace rozpoznávání. Podporuje také MFCC a energie filtračních bloků spolu s logickou energií filtračních bloků. 

Knihovna SpeechPy poskytla sadu užitečných technik pro zpracování řeči i rozpoznávání a důležité operace následného zpracování pomocí příkazů Pythonu. Knihovna SpeechPy plně podporuje různé pokročilé funkce řeči, jako jsou MFCC a energie banky filtrů spolu s log-energií bank filtrů.

Knihovna si také klade za cíl poskytovat všechny potřebné funkce pro aplikace hlubokého učení, jako je rozpoznávání řeči (AS) nebo automatické rozpoznávání řeči (ASR). Poskytuje několik důležitých funkcí pro výpočet hlavních funkcí řeči, jako je výpočet funkcí MFCC ze zvukového signálu, výpočet energie mel-filtr-bank, výpočet energetických vlastností Mel-filtr-banky ze zvukového signálu, extrahování časových derivačních prvků, extrahování mel frekvence kepstrální koeficient, a mnoho dalších.

Previous Next

Začínáme s SpeechPy

Nejjednodušší způsob instalace knihovny SpeechPy je pomocí Python Package Index (PyPI). Pro kompletní instalaci použijte prosím následující příkaz.

Nainstalujte SpeechPy pomocí PyPI

 pip install speechpy 

Rozpoznávání řeči přes Python

Rozpoznávání řeči se zabývá především rozpoznáváním a překladem mluveného jazyka do textu pomocí počítačů. Open source Python knihovna SpeechPy umožňuje vývojářům softwaru vytvářet aplikace podporující funkce rozpoznávání řeči. Pomáhá uživatelům ušetřit čas mluvením namísto psaní. Pomáhá tak uživatelům komunikovat s jejich zařízeními s menší námahou a činí technologická zařízení dostupnějšími a snadněji použitelnými.

Vypočítejte MFCC ze zvukového signálu

Pythonská knihovna SpeechPy poskytla kompletní podporu pro výpočet funkcí MFCC ze zvukového signálu uvnitř jejich vlastních aplikací. Knihovna poskytuje podporu pro několik důležitých funkcí MFCC, jako je vzorkovací frekvence signálu, délka každého snímku v sekundách, krok mezi po sobě jdoucími snímky v sekundách, použití filtrů z banky filtrů, počet bodů FFT, okraj nejnižšího pásma mel filtrů , okraj nejvyššího pásma mel filtrů, Počet kepstrálních koeficientů a další.

Extrahujte zvuk pomocí automatických kodérů

Open source Python knihovna SpeechPy umožňuje počítačovým programátorům extrahovat zvuková data pomocí Python kódu. Autoencoder je velmi efektivní technika učení pro neuronové sítě, která se učí efektivní reprezentace dat. Sítě s automatickým kodérem se od sebe navzájem učí, jak komprimovat data ze vstupní vrstvy do kratšího kódu a poté tento kód dekomprimovat do jakéhokoli formátu, který nejlépe odpovídá původnímu vstupu.

 Čeština