SpeechPy

 
 

Библиотека на Python с отворен код за разпознаване на реч

API на Python, който поддържа обработка на реч, както и операции за разпознаване. Той също така поддържа MFCC и енергии на филтърни банки заедно с логаритмичната енергия на филтърни банки. 

Библиотеката SpeechPy предостави набор от полезни техники за обработка на реч, както и разпознаване и важни операции за последваща обработка с помощта на команди на Python. Различни усъвършенствани речеви функции, като MFCC и филтърни банки енергии заедно с лог-енергията на филтърни банки се поддържат напълно от библиотеката SpeechPy.

Библиотеката също има за цел да предостави всички необходими функционалности за приложения за дълбоко обучение, като разпознаване на реч (AS) или автоматично разпознаване на реч (ASR). Осигурява няколко важни функции за изчисляване на основните речеви характеристики, като например изчисляване на MFCC характеристики от аудио сигнал, изчисляване на енергията на mel-filter-banks, изчисляване на log Mel-filter-bank енергийни характеристики от аудио сигнал, извличане на времеви производни характеристики, извличане mel честотен кепстрален коефициент и много други.

Previous Next

Първи стъпки с SpeechPy

Най-лесният начин да инсталирате библиотеката SpeechPy е да използвате Python Package Index (PyPI). Моля, използвайте следната команда за пълна инсталация.

Инсталирайте SpeechPy с помощта на PyPI

 pip install speechpy 

Разпознаване на реч чрез Python

Разпознаването на реч се занимава главно с разпознаването и превода на говорим език в текст от компютри. Библиотеката на Python с отворен код SpeechPy позволява на разработчиците на софтуер да създават приложения, поддържащи функции за разпознаване на реч. Помага на потребителите да спестят време, като говорят, вместо да пишат. По този начин помага на потребителите да комуникират с устройствата си с по-малко усилия и прави технологичните устройства по-достъпни и по-лесни за използване.

Изчислете MFCC от аудио сигнал

Библиотеката на Python SpeechPy е предоставила пълна поддръжка за изчисляване на MFCC функции от аудио сигнал в техните собствени приложения. Библиотеката е предоставила поддръжка за няколко важни функции на MFCC, като например честота на семплиране на сигнала, дължина на всеки кадър в секунди,  стъпка между последователни кадри в секунди, прилагане на филтри от филтърна банка, брой FFT точки, най-долния ръб на лентата на мел филтрите , край на най-високата лента на мел филтри, брой на кепстралните коефициенти и др.

Извличане на аудио с помощта на Autoencoders

Библиотеката на Python с отворен код SpeechPy позволява на компютърните програмисти да извличат аудио данни с помощта на код на Python. Autoencoder е много ефективна техника за обучение за невронни мрежи, която научава ефективни представяния на данни. Мрежите за автоматично кодиране се учат една от друга как да компресират данни от входния слой в по-кратък код и след това да декомпресират този код във всеки формат, който най-добре съответства на оригиналния вход.

 Български