SpeechPy

Åpen kildekode Python-bibliotek for talegjenkjenninger

Python API som støtter talebehandling så vel som gjenkjenningsoperasjoner. Den støtter også MFCCer og filterbankenergier sammen med loggenergien til filterbanker.

SpeechPy-biblioteket har gitt et sett med nyttige teknikker for talebehandling så vel som gjenkjenning og viktige etterbehandlingsoperasjoner ved hjelp av Python-kommandoer. Ulike avanserte talefunksjoner som MFCCer og filterbankenergier sammen med loggenergien til filterbanker støttes fullt ut av SpeechPy-biblioteket.

Biblioteket har også som mål å tilby alle nødvendige funksjoner for dyplæringsapplikasjoner som talegjenkjenning (AS) eller automatisk talegjenkjenning (ASR). Den har gitt flere viktige funksjoner for å beregne hovedtalefunksjonene, for eksempel beregning av MFCC-funksjoner fra et lydsignal, beregning av mel-filter-bank-energi, beregning av log-mel-filter-bank-energifunksjoner fra et lydsignal, ekstrahering av tidsavledede funksjoner, ekstrahering mel frekvens cepstral koeffisient, og mange flere.

Med et blikk

En oversikt over SpeechPy-funksjoner.

Oversikt over funksjoner

Talebehandling
Talegjenkjenning
Beregn MFCC-er
Filterbankenergier
MP3-støtte
Etterbehandling
Bruk autokodere
Pakk ut lyd
Lyd til tekst

SpeechPy

SpeechPy støtter lydfilformater som oppført nedenfor.

Leser

MP3, WAV, WMA, WEBM

Forfatter

MP3, WAV, WMA, WEBM

SpeechPy

Plattformuavhengighet

SpeechPy krever bare Python-kjøring.

Python 2.6 og nyere.

SpeechPy

Komme i gang med SpeechPy

Den enkleste måten å installere SpeechPy-biblioteket på er å bruke Python Package Index (PyPI). Vennligst bruk følgende kommando for en fullstendig installasjon.

Installer SpeechPy ved hjelp av PyPI

 pip install speechpy

Talegjenkjenning via Python

Talegjenkjenning er hovedsakelig opptatt av gjenkjenning og oversettelse av talespråk til tekst av datamaskiner. Åpen kildekode Python-biblioteket SpeechPy gjør det mulig for programvareutviklere å lage applikasjoner som støtter talegjenkjenningsfunksjoner. Det hjelper brukere å spare tid ved å snakke i stedet for å skrive. Dermed hjelper brukere å kommunisere med enhetene sine med mindre innsats og gjør teknologiske enheter mer tilgjengelige og enklere å bruke.

Beregn MFCC fra lydsignal

Python-biblioteket SpeechPy har gitt fullstendig støtte for databehandling av MFCC-funksjoner fra et lydsignal i deres egne applikasjoner. Biblioteket har gitt støtte for flere viktige MFCC-funksjoner som samplingsfrekvens for signalet, lengden på hver frame i sekunder, trinn mellom påfølgende bilder i sekunder, bruk filtre fra filterbank, antall FFT-punkter, laveste båndkant av mel-filtre , høyeste båndkant av mel-filtre, Antall cepstralkoeffisienter og mer.

Pakk ut lyd ved hjelp av autoenkodere

Åpen kildekode Python-biblioteket SpeechPy gjør det mulig for dataprogrammerere å trekke ut lyddata ved å bruke Python-kode. Autoencoder er en veldig effektiv læringsteknikk for nevrale nettverk som lærer effektive datarepresentasjoner. Autoencoder-nettverk lærer av hverandre hvordan de komprimerer data fra inngangslaget til en kortere kode, og komprimerer deretter den koden til det formatet som passer best til den opprinnelige inngangen.