SpeechPy

Biblioteca Python de código abierto para reconocimientos de voz

API de Python que admite el procesamiento de voz y las operaciones de reconocimiento. También es compatible con MFCC y energías de bancos de filtros junto con la energía de registro de los bancos de filtros.

La biblioteca SpeechPy ha proporcionado un conjunto de técnicas útiles para el procesamiento del habla, así como operaciones importantes de reconocimiento y posprocesamiento mediante comandos de Python. La biblioteca SpeechPy es totalmente compatible con varias funciones de voz avanzadas, como MFCC y energías de bancos de filtros, junto con la energía de registro de los bancos de filtros.

La biblioteca también tiene como objetivo proporcionar todas las funcionalidades necesarias para las aplicaciones de aprendizaje profundo, como el reconocimiento de voz (AS) o el reconocimiento automático de voz (ASR). Ha proporcionado varias funciones importantes para calcular las características principales del habla, como el cálculo de las características MFCC de una señal de audio, el cálculo de la energía de los bancos de filtros Mel, el cálculo de las características de energía del banco de filtros Mel de registro de una señal de audio, la extracción de características derivadas temporales, la extracción de coeficiente cepstral de frecuencia de mel, y muchos más.

de un vistazo

Una descripción general de las características de SpeechPy.

Descripción de las características

Procesamiento de voz
Reconocimiento de voz
Calcular MFCC
Energías del banco de filtros
soporte MP3
Postprocesamiento
Usar codificadores automáticos
Extraer audio
Audio a texto

SpeechPy

SpeechPy admite los formatos de archivo de audio que se enumeran a continuación.

Lector

MP3, WAV, WMA, WEBM

Escritor

MP3, WAV, WMA, WEBM

SpeechPy

Independencia de la plataforma

SpeechPy solo requiere el tiempo de ejecución de Python.

Python 2.6 y superior.

SpeechPy

Primeros pasos con SpeechPy

La forma más fácil de instalar la biblioteca SpeechPy es usar el índice de paquetes de Python (PyPI). Utilice el siguiente comando para una instalación completa.

Instalar SpeechPy usando PyPI

 pip install speechpy

Reconocimiento de voz a través de Python

El reconocimiento de voz se ocupa principalmente del reconocimiento y la traducción del lenguaje hablado a texto por parte de las computadoras. La biblioteca Python de código abierto SpeechPy permite a los desarrolladores de software crear aplicaciones compatibles con funciones de reconocimiento de voz. Ayuda a los usuarios a ahorrar tiempo al hablar en lugar de escribir. Ayudando así a los usuarios a comunicarse con sus dispositivos con menos esfuerzo y haciendo que los dispositivos tecnológicos sean más accesibles y fáciles de usar.

Calcular MFCC a partir de la señal de audio

La biblioteca de Python, SpeechPy, ha brindado soporte completo para calcular las funciones de MFCC desde una señal de audio dentro de sus propias aplicaciones. La biblioteca ha brindado soporte para varias características importantes de MFCC, como la frecuencia de muestreo de la señal, la duración de cada cuadro en segundos, el paso entre cuadros sucesivos en segundos, la aplicación de filtros del banco de filtros, la cantidad de puntos FFT, el límite de banda más bajo de los filtros mel. , borde de banda más alto de filtros mel, Número de coeficientes cepstrales y más.

Extraer audio usando codificadores automáticos

La biblioteca Python de código abierto SpeechPy permite a los programadores de computadoras extraer datos de audio utilizando el código Python. Autoencoder es una técnica de aprendizaje muy efectiva para redes neuronales que aprende representaciones de datos eficientes. Las redes de codificadores automáticos aprenden unas de otras cómo comprimir datos de la capa de entrada en un código más corto y luego descomprimir ese código en el formato que mejor se adapte a la entrada original.