SpeechPy

Open Source Python Library for Speech Recognitions

Python API som stöder talbehandling och igenkänningsoperationer. Den stöder också MFCC:er och filterbanksenergier tillsammans med logenergin hos filterbanker.

SpeechPy-biblioteket har tillhandahållit en uppsättning användbara tekniker för talbearbetning samt igenkänning och viktiga efterbearbetningsoperationer med Python-kommandon. Olika avancerade talfunktioner som MFCC och filterbanksenergier tillsammans med logenergin hos filterbanker stöds fullt ut av SpeechPy-biblioteket.

Biblioteket syftar också till att tillhandahålla alla nödvändiga funktioner för djupinlärningsapplikationer som taligenkänning (AS) eller automatisk taligenkänning (ASR). Den har tillhandahållit flera viktiga funktioner för att beräkna de viktigaste talfunktionerna, såsom beräkning av MFCC-egenskaper från en ljudsignal, beräkning av mel-filter-banks energi, beräkning av log Mel-filter-bank energifunktioner från en ljudsignal, extrahering av temporala derivativa funktioner, extrahera mel frekvens cepstral koefficient, och många fler.

En överblick

En översikt över SpeechPy-funktioner.

Funktioner Översikt

Talbehandling
Taligenkänning
Beräkna MFCC
Filterbanksenergier
MP3-stöd
Efterbehandling
Använd autokodare
Extrahera ljud
Ljud till text

SpeechPy

SpeechPy stöder ljudfilformat enligt listan nedan.

Läsare

MP3, WAV, WMA, WEBM

Författare

MP3, WAV, WMA, WEBM

SpeechPy

Plattformsoberoende

SpeechPy kräver bara Python-körning.

Python 2.6 och senare.

SpeechPy

Komma igång med SpeechPy

Det enklaste sättet att installera SpeechPy-biblioteket är att använda Python Package Index (PyPI). Använd följande kommando för en komplett installation.

Installera SpeechPy med PyPI

 pip install speechpy

Taligenkänning via Python

Taligenkänning handlar främst om igenkänning och översättning av talat språk till text med datorer. Python-biblioteket SpeechPy med öppen källkod gör det möjligt för mjukvaruutvecklare att skapa applikationer som stöder taligenkänningsfunktioner. Det hjälper användare att spara tid genom att prata istället för att skriva. På så sätt hjälper användarna att kommunicera med sina enheter med mindre ansträngning och gör tekniska enheter mer tillgängliga och enklare att använda.

Beräkna MFCC från Audio Signal

Python-biblioteket SpeechPy har tillhandahållit komplett stöd för beräkning av MFCC-funktioner från en ljudsignal i sina egna applikationer. Biblioteket har tillhandahållit stöd för flera viktiga MFCC-funktioner som samplingsfrekvens för signalen, längden på varje bildruta i sekunder, steg mellan på varandra följande bildrutor i sekunder, tillämpa filter från filterbank, antal FFT-punkter, lägsta bandkanten på melfilter , högsta bandkanten på melfilter, Antal cepstralkoefficienter och mer.

Extrahera ljud med autoencoders

Python-biblioteket med öppen källkod SpeechPy gör det möjligt för datorprogrammerare att extrahera ljuddata med hjälp av Python-kod. Autoencoder är en mycket effektiv inlärningsteknik för neurala nätverk som lär sig effektiva datarepresentationer. Autoencoder-nätverk lär sig av varandra hur man komprimerar data från indatalagret till en kortare kod, och sedan komprimerar den koden till det format som bäst matchar den ursprungliga inmatningen.