SpeechPy

 
 

音声認識用のオープン ソース Python ライブラリ

音声処理と認識操作をサポートする Python API。また、フィルター バンクの対数エネルギーに加えて、MFCC とフィルター バンク エネルギーもサポートします。 

SpeechPy ライブラリは、Python コマンドを使用した音声処理、認識および重要な後処理操作に役立つ一連のテクニックを提供しています。 SpeechPy ライブラリでは、MFCC やフィルター バンク エネルギー、フィルター バンクの対数エネルギーなどのさまざまな高度な音声機能が完全にサポートされています。

このライブラリは、音声認識 (AS) や自動音声認識 (ASR) などの深層学習アプリケーションに必要なすべての機能を提供することも目的としています。音声信号からの MFCC 機能の計算、メル フィルター バンク エネルギーの計算、音声信号からの対数メル フィルター バンク エネルギー機能の計算、時間微分機能の抽出、メル周波数ケプストラム係数、その他多数。

Previous Next

SpeechPy を使ってみる

SpeechPy ライブラリをインストールする最も簡単な方法は、Python Package Index (PyPI) を使用することです。完全なインストールには、次のコマンドを使用してください。

PyPI を使用して SpeechPy をインストールする

 pip install speechpy 

Python による音声認識

音声認識は、主にコンピューターによる音声言語の認識とテキストへの翻訳に関係しています。オープン ソースの Python ライブラリ SpeechPy を使用すると、ソフトウェア開発者は音声認識機能をサポートするアプリケーションを作成できます。入力する代わりに話すことで、ユーザーは時間を節約できます。したがって、ユーザーがより少ない労力でデバイスと通信できるようにし、テクノロジー デバイスをよりアクセスしやすく使いやすくします。

オーディオ信号からの MFCC の計算

Python ライブラリ SpeechPy は、独自のアプリケーション内でオーディオ信号から MFCC 機能を計算するための完全なサポートを提供しています。ライブラリは、信号のサンプリング周波数、秒単位の各フレームの長さ、秒単位の連続するフレーム間のステップ、フィルター バンクからのフィルターの適用、FFT ポイントの数、メル フィルターの最低帯域エッジなど、いくつかの重要な MFCC 機能のサポートを提供しています。 、メル フィルターの最高帯域エッジ、ケプストラム係数の数など。

オートエンコーダーを使用してオーディオを抽出する

オープン ソースの Python ライブラリ SpeechPy を使用すると、コンピューター プログラマーは Python コードを使用して音声データを抽出できます。オートエンコーダーは、効率的なデータ表現を学習するニューラル ネットワークにとって非常に効果的な学習手法です。オートエンコーダー ネットワークは、入力レイヤーからのデータを短いコードに圧縮する方法を相互に学習し、そのコードを元の入力に最適な形式に圧縮解除します。

 日本