SpeechPy

用于语音识别的开源 Python 库

支持语音处理和识别操作的 Python API。它还支持 MFCC 和滤波器组能量以及滤波器组的对数能量。

SpeechPy 库为语音处理以及使用 Python 命令的识别和重要的后处理操作提供了一组有用的技术。 SpeechPy 库完全支持各种高级语音功能，例如 MFCC 和滤波器组能量以及滤波器组的对数能量。

该库还旨在为语音识别 (AS) 或自动语音识别 (ASR) 等深度学习应用程序提供所有必要的功能。它提供了计算主要语音特征的几个重要功能，例如从音频信号中计算 MFCC 特征、计算 mel-filter-banks 能量、从音频信号中计算 log Mel-filter-bank 能量特征、提取时间导数特征、提取mel 频率倒谱系数等等。

乍看上去

SpeechPy 功能概述。

功能概述

语音处理
语音识别
计算 MFCC
滤波器组能量
MP3 支持
后期处理
使用自动编码器
提取音频
音频转文本

语音Py

SpeechPy 支持如下所列的音频文件格式。

读者

MP3, WAV, WMA, WEBM

作家

MP3, WAV, WMA, WEBM

语音Py

平台独立性

SpeechPy 只需要 Python 运行时。

Python 2.6 及更高版本。

语音Py

SpeechPy 入门

安装 SpeechPy 库的最简单方法是使用 Python 包索引 (PyPI)。请使用以下命令进行完整安装。

使用 PyPI 安装 SpeechPy

 pip install speechpy

通过 Python 进行语音识别

语音识别主要涉及计算机将口语识别和翻译成文本。开源 Python 库 SpeechPy 使软件开发人员能够创建支持语音识别功能的应用程序。它可以帮助用户通过说话而不是打字来节省时间。从而帮助用户以更少的努力与他们的设备进行通信，并使技术设备更易于访问和使用。

从音频信号计算 MFCC

Python 库 SpeechPy 为从其应用程序中的音频信号计算 MFCC 特征提供了完整的支持。该库提供了对几个重要的 MFCC 功能的支持，例如信号的采样频率、以秒为单位的每帧长度、以秒为单位的连续帧之间的步进、应用来自滤波器组的滤波器、FFT 点的数量、mel 滤波器的最低频带边缘，梅尔滤波器的最高频带边缘，倒谱系数的数量等等。

使用自动编码器提取音频

开源 Python 库 SpeechPy 使计算机程序员能够使用 Python 代码提取音频数据。自动编码器是一种非常有效的神经网络学习技术，可以学习有效的数据表示。自动编码器网络相互学习如何将输入层的数据压缩成更短的代码，然后将该代码解压缩为与原始输入最匹配的任何格式。