1. 产品
  2.   声音的
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

用于语音识别的开源 Python 库

支持语音处理和识别操作的 Python API。它还支持 MFCC 和滤波器组能量以及滤波器组的对数能量。 

SpeechPy 库为语音处理以及使用 Python 命令的识别和重要的后处理操作提供了一组有用的技术。 SpeechPy 库完全支持各种高级语音功能,例如 MFCC 和滤波器组能量以及滤波器组的对数能量。

该库还旨在为语音识别 (AS) 或自动语音识别 (ASR) 等深度学习应用程序提供所有必要的功能。它提供了计算主要语音特征的几个重要功能,例如从音频信号中计算 MFCC 特征、计算 mel-filter-banks 能量、从音频信号中计算 log Mel-filter-bank 能量特征、提取时间导数特征、提取mel 频率倒谱系数等等。

Previous Next

SpeechPy 入门

安装 SpeechPy 库的最简单方法是使用 Python 包索引 (PyPI)。请使用以下命令进行完整安装。

使用 PyPI 安装 SpeechPy

 pip install speechpy 

通过 Python 进行语音识别

语音识别主要涉及计算机将口语识别和翻译成文本。开源 Python 库 SpeechPy 使软件开发人员能够创建支持语音识别功能的应用程序。它可以帮助用户通过说话而不是打字来节省时间。从而帮助用户以更少的努力与他们的设备进行通信,并使技术设备更易于访问和使用。

从音频信号计算 MFCC

Python 库 SpeechPy 为从其应用程序中的音频信号计算 MFCC 特征提供了完整的支持。该库提供了对几个重要的 MFCC 功能的支持,例如信号的采样频率、以秒为单位的每帧长度、以秒为单位的连续帧之间的步进、应用来自滤波器组的滤波器、FFT 点的数量、mel 滤波器的最低频带边缘,梅尔滤波器的最高频带边缘,倒谱系数的数量等等。

使用自动编码器提取音频

开源 Python 库 SpeechPy 使计算机程序员能够使用 Python 代码提取音频数据。自动编码器是一种非常有效的神经网络学习技术,可以学习有效的数据表示。自动编码器网络相互学习如何将输入层的数据压缩成更短的代码,然后将该代码解压缩为与原始输入最匹配的任何格式。

 中国人