SpeechPy

Perpustakaan Python Sumber Terbuka untuk Pengecaman Pertuturan

API Python yang menyokong pemprosesan pertuturan serta operasi pengecaman. Ia juga menyokong MFCC dan tenaga bank penapis di samping tenaga log bank penapis.

Pustaka SpeechPy telah menyediakan satu set teknik berguna untuk pemprosesan pertuturan serta pengiktirafan dan operasi pasca pemprosesan yang penting menggunakan arahan Python. Pelbagai ciri pertuturan lanjutan seperti MFCC dan tenaga bank penapis di samping tenaga log bank penapis disokong sepenuhnya oleh pustaka SpeechPy.

Perpustakaan ini juga bertujuan untuk menyediakan semua fungsi yang diperlukan untuk aplikasi pembelajaran mendalam seperti pengecaman pertuturan (AS) atau pengecaman pertuturan automatik (ASR). Ia telah menyediakan beberapa fungsi penting untuk mengira ciri pertuturan utama seperti mengira ciri MFCC daripada isyarat audio, mengira tenaga bank penapis mel, log pengkomputeran ciri tenaga Mel-penapis-bank daripada isyarat audio, mengekstrak ciri terbitan temporal, mengekstrak. pekali cepstral frekuensi mel, dan banyak lagi.

Sekali pandang

Gambaran keseluruhan ciri SpeechPy.

Gambaran Keseluruhan Ciri

Pemprosesan Ucapan
Pengenalan suara
Kira MFCC
Tenaga bank penapis
Sokongan MP3
Pemprosesan Pasca
Gunakan Autoencoders
Ekstrak Audio
Audio ke Teks

SpeechPy

SpeechPy menyokong format fail Audio seperti yang disenaraikan di bawah.

Pembaca

MP3, WAV, WMA, WEBM

Penulis

MP3, WAV, WMA, WEBM

SpeechPy

Kemerdekaan Platform

SpeechPy hanya memerlukan masa jalanan Python.

Python 2.6 & Ke Atas.

SpeechPy

Bermula dengan SpeechPy

Cara paling mudah untuk memasang pustaka SpeechPy ialah menggunakan Indeks Pakej Python (PyPI). Sila gunakan arahan berikut untuk pemasangan yang lengkap.

Pasang SpeechPy menggunakan PyPI

 pip install speechpy

Pengecaman Pertuturan melalui Python

Pengecaman Pertuturan terutamanya berkaitan dengan pengiktirafan dan terjemahan bahasa pertuturan ke dalam teks oleh komputer. Pustaka Python sumber terbuka SpeechPy membolehkan pembangun perisian mencipta aplikasi yang menyokong ciri pengecaman pertuturan. Ia membantu pengguna menjimatkan masa dengan bercakap dan bukannya menaip. Dengan itu membantu pengguna untuk berkomunikasi dengan peranti mereka dengan sedikit usaha dan menjadikan peranti teknologi lebih mudah diakses dan lebih mudah untuk digunakan.

Kira MFCC daripada Isyarat Audio

Pustaka Python SpeechPy telah menyediakan sokongan lengkap untuk mengira ciri MFCC daripada isyarat audio di dalam aplikasi mereka sendiri. Perpustakaan telah menyediakan sokongan untuk beberapa ciri MFCC penting seperti kekerapan pensampelan isyarat, panjang setiap bingkai dalam saat, langkah antara bingkai berturut-turut dalam saat, gunakan penapis daripada bank penapis, bilangan titik FFT, pinggir jalur terendah penapis mel , pinggir jalur tertinggi penapis mel, Bilangan pekali cepstral dan banyak lagi.

Ekstrak Audio menggunakan Autoencoders

Pustaka Python sumber terbuka SpeechPy membolehkan pengaturcara komputer mengekstrak data audio menggunakan kod Python. Autoencoder ialah teknik pembelajaran yang sangat berkesan untuk rangkaian saraf yang mempelajari perwakilan data yang cekap. Rangkaian pengekod auto belajar daripada satu sama lain cara memampatkan data daripada lapisan input kepada kod yang lebih pendek, dan kemudian nyahmampatkan kod itu ke dalam apa jua format yang paling sesuai dengan input asal.