SpeechPy

Bibliothèque Python open source pour les reconnaissances vocales

API Python qui prend en charge le traitement de la parole ainsi que les opérations de reconnaissance. Il prend également en charge les MFCC et les énergies des bancs de filtres aux côtés de l'énergie logarithmique des bancs de filtres.

La bibliothèque SpeechPy a fourni un ensemble de techniques utiles pour le traitement de la parole ainsi que la reconnaissance et les opérations de post-traitement importantes à l'aide de commandes Python. Diverses fonctionnalités vocales avancées telles que les MFCC et les énergies des bancs de filtres ainsi que l'énergie logarithmique des bancs de filtres sont entièrement prises en charge par la bibliothèque SpeechPy.

La bibliothèque vise également à fournir toutes les fonctionnalités nécessaires aux applications d'apprentissage en profondeur telles que la reconnaissance vocale (AS) ou la reconnaissance automatique de la parole (ASR). Il a fourni plusieurs fonctions importantes pour le calcul des principales caractéristiques de la parole telles que le calcul des caractéristiques MFCC à partir d'un signal audio, le calcul de l'énergie des banques de filtres mel, le calcul des caractéristiques d'énergie des banques de filtres Mel log à partir d'un signal audio, l'extraction des caractéristiques dérivées temporelles, l'extraction coefficient cepstral de fréquence mel, et bien d'autres.

En bref

Un aperçu des fonctionnalités de SpeechPy.

Présentation des fonctionnalités

Traitement de la parole
Reconnaissance de la parole
Calculer les MFCC
Énergies du banc de filtres
Prise en charge MP3
Post-traitement
Utiliser les encodeurs automatiques
Extraire le son
Audio en texte

DiscoursPy

SpeechPy prend en charge les formats de fichiers audio répertoriés ci-dessous.

Lecteur

MP3, WAV, WMA, WEBM

Écrivain

MP3, WAV, WMA, WEBM

DiscoursPy

Indépendance de la plate-forme

SpeechPy ne nécessite que l'environnement d'exécution Python.

Python 2.6 et supérieur.

DiscoursPy

Premiers pas avec SpeechPy

Le moyen le plus simple d'installer la bibliothèque SpeechPy consiste à utiliser Python Package Index (PyPI). Veuillez utiliser la commande suivante pour une installation complète.

Installer SpeechPy à l'aide de PyPI

 pip install speechpy

Reconnaissance vocale via Python

La reconnaissance vocale concerne principalement la reconnaissance et la traduction du langage parlé en texte par les ordinateurs. La bibliothèque Python open source SpeechPy permet aux développeurs de logiciels de créer des applications prenant en charge les fonctionnalités de reconnaissance vocale. Il aide les utilisateurs à gagner du temps en parlant au lieu de taper. Aider ainsi les utilisateurs à communiquer avec leurs appareils avec moins d'effort et rendre les appareils technologiques plus accessibles et plus faciles à utiliser.

Calculer MFCC à partir du signal audio

La bibliothèque Python SpeechPy a fourni une prise en charge complète pour le calcul des fonctionnalités MFCC à partir d'un signal audio dans leurs propres applications. La bibliothèque a pris en charge plusieurs fonctionnalités MFCC importantes telles que la fréquence d'échantillonnage du signal, la longueur de chaque image en secondes, le pas entre les images successives en secondes, l'application de filtres à partir de la banque de filtres, le nombre de points FFT, le bord de bande le plus bas des filtres mel , bord de bande le plus élevé des filtres mel, nombre de coefficients cepstraux et plus encore.

Extraire l'audio à l'aide d'auto-encodeurs

La bibliothèque Python open source SpeechPy permet aux programmeurs informatiques d'extraire des données audio à l'aide de code Python. L'auto-encodeur est une technique d'apprentissage très efficace pour les réseaux de neurones qui apprend des représentations de données efficaces. Les réseaux d'auto-encodeurs apprennent les uns des autres comment compresser les données de la couche d'entrée en un code plus court, puis décompresser ce code dans le format qui correspond le mieux à l'entrée d'origine.