SpeechPy
用于语音识别的开源 Python 库
支持语音处理和识别操作的 Python API。它还支持 MFCC 和滤波器组能量以及滤波器组的对数能量。
SpeechPy 入门
安装 SpeechPy 库的最简单方法是使用 Python 包索引 (PyPI)。请使用以下命令进行完整安装。
使用 PyPI 安装 SpeechPy
pip install speechpy
通过 Python 进行语音识别
语音识别主要涉及计算机将口语识别和翻译成文本。开源 Python 库 SpeechPy 使软件开发人员能够创建支持语音识别功能的应用程序。它可以帮助用户通过说话而不是打字来节省时间。从而帮助用户以更少的努力与他们的设备进行通信,并使技术设备更易于访问和使用。
从音频信号计算 MFCC
Python 库 SpeechPy 为从其应用程序中的音频信号计算 MFCC 特征提供了完整的支持。该库提供了对几个重要的 MFCC 功能的支持,例如信号的采样频率、以秒为单位的每帧长度、以秒为单位的连续帧之间的步进、应用来自滤波器组的滤波器、FFT 点的数量、mel 滤波器的最低频带边缘,梅尔滤波器的最高频带边缘,倒谱系数的数量等等。
使用自动编码器提取音频
开源 Python 库 SpeechPy 使计算机程序员能够使用 Python 代码提取音频数据。自动编码器是一种非常有效的神经网络学习技术,可以学习有效的数据表示。自动编码器网络相互学习如何将输入层的数据压缩成更短的代码,然后将该代码解压缩为与原始输入最匹配的任何格式。