SpeechPy

Бібліотека Python з відкритим кодом для розпізнавання мовлення

API Python, який підтримує обробку мовлення, а також операції розпізнавання. Він також підтримує MFCC та енергію блоків фільтрів разом із логарифмічною енергією блоків фільтрів.

Бібліотека SpeechPy надала набір корисних прийомів для обробки мовлення, а також розпізнавання та важливих операцій постобробки за допомогою команд Python. Бібліотека SpeechPy повністю підтримує різноманітні розширені функції мовлення, як-от MFCC та енергію банку фільтрів, а також енергію журналу банків фільтрів.

Бібліотека також має на меті надати всі необхідні функції для програм глибокого навчання, таких як розпізнавання мовлення (AS) або автоматичне розпізнавання мовлення (ASR). Він надав кілька важливих функцій для обчислення основних характеристик мовлення, таких як обчислення характеристик MFCC з аудіосигналу, обчислення енергії банків фільтрів Мел, обчислення енергетичних характеристик банку Мел-фільтрів журналу з аудіосигналу, витягування часових похідних характеристик, вилучення mel частотний кепстральний коефіцієнт і багато іншого.

З одного погляду

Огляд функцій SpeechPy.

Огляд функцій

Обробка мовлення
Розпізнавання мови
Обчислити MFCC
Фільтрбанк енергій
Підтримка MP3
Подальша обробка
Використовуйте автокодери
Витяг аудіо
Аудіо в текст

SpeechPy

SpeechPy підтримує перелічені нижче формати аудіофайлів.

читач

MP3, WAV, WMA, WEBM

Письменник

MP3, WAV, WMA, WEBM

SpeechPy

Незалежність платформи

SpeechPy потребує лише середовища виконання Python.

Python 2.6 і вище.

SpeechPy

Початок роботи з SpeechPy

Найпростіший спосіб інсталювати бібліотеку SpeechPy за допомогою індексу пакетів Python (PyPI). Будь ласка, скористайтеся наступною командою для повного встановлення.

Встановіть SpeechPy за допомогою PyPI

 pip install speechpy

Розпізнавання мовлення через Python

Розпізнавання мовлення в основному пов’язане з розпізнаванням і перекладом розмовної мови в текст за допомогою комп’ютерів. Бібліотека Python з відкритим кодом SpeechPy дозволяє розробникам програмного забезпечення створювати програми, що підтримують функції розпізнавання мовлення. Це допомагає користувачам економити час, говорячи замість друку. Таким чином допомагаючи користувачам спілкуватися зі своїми пристроями з меншими зусиллями та роблячи технологічні пристрої більш доступними та простішими у використанні.

Обчислити MFCC з аудіосигналу

Бібліотека Python SpeechPy надала повну підтримку для обчислення функцій MFCC з аудіосигналу в їхніх власних програмах. Бібліотека забезпечує підтримку кількох важливих функцій MFCC, таких як частота дискретизації сигналу, довжина кожного кадру в секундах, крок між послідовними кадрами в секундах, застосування фільтрів із банку фільтрів, кількість точок ШПФ, нижня межа смуги фільтрів Mel , край найвищої смуги мелфільтрів, кількість кепстральних коефіцієнтів тощо.

Витягніть аудіо за допомогою автокодерів

Бібліотека Python з відкритим кодом SpeechPy дозволяє програмістам отримувати аудіодані за допомогою коду Python. Autoencoder — це дуже ефективний метод навчання для нейронних мереж, який вивчає ефективне представлення даних. Мережі автокодерів навчаються одна в одної, як стискати дані з вхідного рівня в коротший код, а потім розтискати цей код у будь-який формат, який найкраще відповідає оригінальному введенню.