SpeechPy
Nyílt forráskódú Python Library a beszédfelismeréshez
Python API, amely támogatja a beszédfeldolgozást és a felismerési műveleteket. Támogatja az MFCC-ket és a szűrőbank-energiákat a szűrőbankok log-energiája mellett.
A SpeechPykönyvtár hasznos technikákat kínál a beszédfeldolgozáshoz, valamint a Python-parancsok segítségével történő felismeréshez és fontos utófeldolgozási műveletekhez. A SpeechPy könyvtár teljes mértékben támogatja a különféle fejlett beszédfunkciókat, például az MFCC-ket és a szűrőbank-energiákat, valamint a szűrőbankok log-energiáját.
A könyvtár célja továbbá, hogy minden szükséges funkciót biztosítson a mély tanulási alkalmazásokhoz, például a beszédfelismeréshez (AS) vagy az automatikus beszédfelismeréshez (ASR). Számos fontos funkcióval rendelkezik a fő beszédjellemzők kiszámításához, mint például az MFCC-jellemzők kiszámítása audiojelből, a mel-filter-bank energia kiszámítása, a naplózási Mel-szűrő-bank energiajellemzők kiszámítása egy audiojelből, az időbeli derivált jellemzők kinyerése, a kinyerés. mel frekvencia cepstralis együttható, és még sok más.
A SpeechPy használatának megkezdése
A SpeechPy könyvtár telepítésének legegyszerűbb módja a Python Package Index (PyPI) használata. Kérjük, használja a következő parancsot a teljes telepítéshez.
Telepítse a SpeechPy-t a PyPI használatával
pip install speechpy
Beszédfelismerés Python segítségével
A beszédfelismerés főként a beszélt nyelv számítógépes felismerésével és szöveggé fordításával foglalkozik. A SpeechPy nyílt forráskódú Python-könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy beszédfelismerő funkciókat támogató alkalmazásokat hozzanak létre. Segítségével a felhasználók időt takaríthatnak meg azzal, hogy gépelés helyett beszélnek. Így segítve a felhasználókat, hogy kevesebb erőfeszítéssel kommunikáljanak eszközeikkel, és könnyebben elérhetővé és könnyebben használhatóvá téve a technológiai eszközöket.
Számítsa ki az MFCC-t az audiojelből
A Python-könyvtár, a SpeechPy teljes körű támogatást nyújtott az MFCC-funkciók hangjelből történő kiszámításához saját alkalmazásaikban. A könyvtár számos fontos MFCC-funkció támogatását biztosítja, mint például a jel mintavételezési frekvenciája, az egyes keretek hossza másodpercben, lépés az egymást követő képkockák között másodpercben, szűrők alkalmazása a szűrőbankból, az FFT-pontok száma, a mel-szűrők legalsó sávszéle. , mel szűrők legmagasabb sávszéle, Cepstralis együtthatók száma és így tovább.
Hang kibontása Autoencoders segítségével
A nyílt forráskódú Python-könyvtár, a SpeechPy lehetővé teszi a számítógép-programozók számára, hogy Python-kóddal kinyerjenek hangadatokat. Az Autoencoder egy nagyon hatékony tanulási technika neurális hálózatokhoz, amely hatékony adatreprezentációkat tanul meg. Az automatikus kódoló hálózatok megtanulják egymástól, hogyan tömörítsék az adatokat a bemeneti rétegből egy rövidebb kódba, majd csomagolják ki a kódot olyan formátumba, amely a legjobban megfelel az eredeti bemenetnek.