SpeechPy

Библиотека Python с открытым исходным кодом для распознавания речи

Python API, который поддерживает обработку речи, а также операции распознавания. Он также поддерживает MFCC и энергии блоков фильтров наряду с логарифмической энергией блоков фильтров.

Библиотека SpeechPy предоставляет набор полезных методов обработки речи, а также распознавания и важных операций постобработки с помощью команд Python. Библиотека SpeechPy полностью поддерживает различные расширенные речевые функции, такие как MFCC и энергии банков фильтров, а также логарифмическую энергию банков фильтров.

Библиотека также стремится предоставить все необходимые функции для приложений глубокого обучения, таких как распознавание речи (AS) или автоматическое распознавание речи (ASR). Он предоставил несколько важных функций для вычисления основных характеристик речи, таких как вычисление характеристик MFCC из аудиосигнала, вычисление энергии банка мел-фильтров, вычисление характеристик энергии банка мел-фильтров журнала из аудиосигнала, извлечение характеристик временной производной, извлечение мел частотный кепстральный коэффициент и многое другое.

С одного взгляда

Обзор функций SpeechPy.

Обзор функций

Обработка речи
Распознавание речи
Вычислить MFCC
Энергии банка фильтров
Поддержка MP3
Постобработка
Используйте автоэнкодеры
Извлечь аудио
Аудио в текст

SpeechPy

SpeechPy поддерживает форматы аудиофайлов, перечисленные ниже.

Читатель

MP3, WAV, WMA, WEBM

Писатель

MP3, WAV, WMA, WEBM

SpeechPy

Независимость от платформы

Для SpeechPy требуется только среда выполнения Python.

Python 2.6 и выше.

SpeechPy

Начало работы с SpeechPy

Самый простой способ установить библиотеку SpeechPy — использовать индекс пакетов Python (PyPI). Пожалуйста, используйте следующую команду для полной установки.

Установите SpeechPy с помощью PyPI

 pip install speechpy

Распознавание речи через Python

Распознавание речи в основном связано с распознаванием и переводом разговорной речи в текст компьютерами. Библиотека Python с открытым исходным кодом SpeechPy позволяет разработчикам программного обеспечения создавать приложения, поддерживающие функции распознавания речи. Это помогает пользователям экономить время, говоря вместо того, чтобы печатать. Это помогает пользователям общаться со своими устройствами с меньшими усилиями и делает технологические устройства более доступными и простыми в использовании.

Вычислите MFCC из аудиосигнала

Библиотека Python SpeechPy предоставила полную поддержку для вычисления функций MFCC из аудиосигнала внутри их собственных приложений. Библиотека обеспечивает поддержку нескольких важных функций MFCC, таких как частота дискретизации сигнала, длина каждого кадра в секундах, шаг между последовательными кадрами в секундах, применение фильтров из банка фильтров, количество точек БПФ, нижняя граница полосы мел-фильтров. , самый высокий край полосы мел-фильтров, количество кепстральных коэффициентов и многое другое.

Извлечение аудио с помощью автоэнкодеров

Библиотека Python с открытым исходным кодом SpeechPy позволяет программистам извлекать аудиоданные с помощью кода Python. Автоэнкодер — это очень эффективный метод обучения нейронных сетей, который изучает эффективные представления данных. Сети автоэнкодера учатся друг у друга, как сжимать данные из входного слоя в более короткий код, а затем распаковывать этот код в любой формат, который лучше всего соответствует исходному входу.