SpeechPy

Nyílt forráskódú Python Library a beszédfelismeréshez

Python API, amely támogatja a beszédfeldolgozást és a felismerési műveleteket. Támogatja az MFCC-ket és a szűrőbank-energiákat a szűrőbankok log-energiája mellett.

A SpeechPykönyvtár hasznos technikákat kínál a beszédfeldolgozáshoz, valamint a Python-parancsok segítségével történő felismeréshez és fontos utófeldolgozási műveletekhez. A SpeechPy könyvtár teljes mértékben támogatja a különféle fejlett beszédfunkciókat, például az MFCC-ket és a szűrőbank-energiákat, valamint a szűrőbankok log-energiáját.

A könyvtár célja továbbá, hogy minden szükséges funkciót biztosítson a mély tanulási alkalmazásokhoz, például a beszédfelismeréshez (AS) vagy az automatikus beszédfelismeréshez (ASR). Számos fontos funkcióval rendelkezik a fő beszédjellemzők kiszámításához, mint például az MFCC-jellemzők kiszámítása audiojelből, a mel-filter-bank energia kiszámítása, a naplózási Mel-szűrő-bank energiajellemzők kiszámítása egy audiojelből, az időbeli derivált jellemzők kinyerése, a kinyerés. mel frekvencia cepstralis együttható, és még sok más.

Ránézésre

A SpeechPy funkcióinak áttekintése.

Jellemzők áttekintése

Beszédfeldolgozás
Beszédfelismerés
MFCC-k kiszámítása
Filterbank energiák
MP3 támogatás
Utófeldolgozás
Használjon automatikus kódolókat
Hang kibontása
Hangból szöveggé

SpeechPy

A SpeechPy támogatja az alább felsorolt hangfájlformátumokat.

Olvasó

MP3, WAV, WMA, WEBM

Író

MP3, WAV, WMA, WEBM

SpeechPy

Platformfüggetlenség

A SpeechPy-hez csak Python-futási idő szükséges.

Python 2.6 és újabb.

SpeechPy

A SpeechPy használatának megkezdése

A SpeechPy könyvtár telepítésének legegyszerűbb módja a Python Package Index (PyPI) használata. Kérjük, használja a következő parancsot a teljes telepítéshez.

Telepítse a SpeechPy-t a PyPI használatával

 pip install speechpy

Beszédfelismerés Python segítségével

A beszédfelismerés főként a beszélt nyelv számítógépes felismerésével és szöveggé fordításával foglalkozik. A SpeechPy nyílt forráskódú Python-könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy beszédfelismerő funkciókat támogató alkalmazásokat hozzanak létre. Segítségével a felhasználók időt takaríthatnak meg azzal, hogy gépelés helyett beszélnek. Így segítve a felhasználókat, hogy kevesebb erőfeszítéssel kommunikáljanak eszközeikkel, és könnyebben elérhetővé és könnyebben használhatóvá téve a technológiai eszközöket.

Számítsa ki az MFCC-t az audiojelből

A Python-könyvtár, a SpeechPy teljes körű támogatást nyújtott az MFCC-funkciók hangjelből történő kiszámításához saját alkalmazásaikban. A könyvtár számos fontos MFCC-funkció támogatását biztosítja, mint például a jel mintavételezési frekvenciája, az egyes keretek hossza másodpercben, lépés az egymást követő képkockák között másodpercben, szűrők alkalmazása a szűrőbankból, az FFT-pontok száma, a mel-szűrők legalsó sávszéle. , mel szűrők legmagasabb sávszéle, Cepstralis együtthatók száma és így tovább.

Hang kibontása Autoencoders segítségével

A nyílt forráskódú Python-könyvtár, a SpeechPy lehetővé teszi a számítógép-programozók számára, hogy Python-kóddal kinyerjenek hangadatokat. Az Autoencoder egy nagyon hatékony tanulási technika neurális hálózatokhoz, amely hatékony adatreprezentációkat tanul meg. Az automatikus kódoló hálózatok megtanulják egymástól, hogyan tömörítsék az adatokat a bemeneti rétegből egy rövidebb kódba, majd csomagolják ki a kódot olyan formátumba, amely a legjobban megfelel az eredeti bemenetnek.