SpeechPy

Biblioteca Python de código aberto para reconhecimento de fala

API Python compatível com processamento de fala e operações de reconhecimento. Ele também suporta MFCCs e energias de banco de filtros juntamente com a energia logarítmica dos bancos de filtros.

A biblioteca SpeechPy fornece um conjunto de técnicas úteis para processamento de fala, bem como reconhecimento e operações importantes de pós-processamento usando comandos Python. Vários recursos avançados de fala, como MFCCs e energias de banco de filtros, juntamente com a energia de log de bancos de filtros, são totalmente suportados pela biblioteca SpeechPy.

A biblioteca também visa fornecer todas as funcionalidades necessárias para aplicativos de aprendizado profundo, como reconhecimento de fala (AS) ou reconhecimento automático de fala (ASR). Ele forneceu várias funções importantes para calcular os principais recursos de fala, como calcular recursos MFCC de um sinal de áudio, calcular a energia dos bancos de filtro-mel, calcular os recursos de energia do banco de filtros-mel de um sinal de áudio, extrair recursos derivados temporais, extrair coeficiente cepstral de frequência mel, e muito mais.

Num relance

Uma visão geral dos recursos do SpeechPy.

Visão geral dos recursos

Processamento de fala
Reconhecimento de fala
Calcular MFCCs
Energias do banco de filtros
Suporte para MP3
Pós-processamento
Usar codificadores automáticos
Extrair áudio
Áudio para texto

SpeechPy

O SpeechPy suporta os formatos de arquivo de áudio listados abaixo.

Leitor

MP3, WAV, WMA, WEBM

Escritor

MP3, WAV, WMA, WEBM

SpeechPy

Independência da plataforma

O SpeechPy requer apenas tempo de execução do Python.

Python 2.6 e superior.

SpeechPy

Introdução ao SpeechPy

A maneira mais fácil de instalar a biblioteca SpeechPy é usando o Python Package Index (PyPI). Por favor, use o seguinte comando para uma instalação completa.

Instale o SpeechPy usando o PyPI

 pip install speechpy

Reconhecimento de fala via Python

O Reconhecimento de Fala está principalmente preocupado com o reconhecimento e tradução da linguagem falada em texto por computadores. A biblioteca Python de código aberto SpeechPy permite que desenvolvedores de software criem aplicativos que suportam recursos de reconhecimento de fala. Ele ajuda os usuários a economizar tempo falando em vez de digitar. Assim, ajudando os usuários a se comunicarem com seus dispositivos com menos esforço e tornando os dispositivos tecnológicos mais acessíveis e fáceis de usar.

Calcular MFCC a partir do sinal de áudio

A biblioteca Python SpeechPy fornece suporte completo para computação de recursos MFCC a partir de um sinal de áudio dentro de seus próprios aplicativos. A biblioteca fornece suporte para vários recursos importantes do MFCC, como frequência de amostragem do sinal, duração de cada quadro em segundos, intervalo entre quadros sucessivos em segundos, aplicação de filtros do banco de filtros, número de pontos FFT, borda de banda mais baixa de filtros mel , borda de banda mais alta de filtros mel, número de coeficientes cepstral e mais.

Extrair áudio usando codificadores automáticos

A biblioteca Python de código aberto SpeechPy permite que programadores de computador extraiam dados de áudio usando código Python. O Autoencoder é uma técnica de aprendizado muito eficaz para redes neurais que aprende representações de dados eficientes. As redes de autoencoder aprendem umas com as outras como compactar dados da camada de entrada em um código mais curto e, em seguida, descompactar esse código em qualquer formato que melhor corresponda à entrada original.