SpeechPy
Pustaka Python Sumber Terbuka untuk Pengenalan Ucapan
Python API yang mendukung pemrosesan ucapan serta operasi pengenalan. Ini juga mendukung MFCC dan energi bank filter di samping energi log bank filter.
Pustaka SpeechPy telah menyediakan serangkaian teknik yang berguna untuk pemrosesan ucapan serta pengenalan dan operasi pasca-pemrosesan yang penting menggunakan perintah Python. Berbagai fitur ucapan lanjutan seperti MFCC dan energi bank filter di samping energi log bank filter didukung penuh oleh pustaka SpeechPy.
Perpustakaan ini juga bertujuan untuk menyediakan semua fungsi yang diperlukan untuk aplikasi pembelajaran mendalam seperti pengenalan suara (AS) atau pengenalan suara otomatis (ASR). Ini telah menyediakan beberapa fungsi penting untuk menghitung fitur ucapan utama seperti menghitung fitur MFCC dari sinyal audio, menghitung energi mel-filter-bank, menghitung fitur energi mel-filter-bank dari sinyal audio, mengekstraksi fitur turunan temporal, mengekstraksi koefisien cepstral frekuensi mel, dan banyak lagi.
Memulai dengan SpeechPy
Cara termudah untuk menginstal perpustakaan SpeechPy adalah menggunakan Python Package Index (PyPI). Silakan gunakan perintah berikut untuk instalasi lengkap.
Instal SpeechPy menggunakan PyPI
pip install speechpy
Pengenalan Ucapan melalui Python
Speech Recognition terutama berkaitan dengan pengenalan dan terjemahan bahasa lisan ke dalam teks oleh komputer. Pustaka Python open source SpeechPy memungkinkan pengembang perangkat lunak untuk membuat aplikasi yang mendukung fitur pengenalan suara. Ini membantu pengguna menghemat waktu dengan berbicara daripada mengetik. Dengan demikian membantu pengguna untuk berkomunikasi dengan perangkat mereka dengan sedikit usaha dan membuat perangkat teknologi lebih mudah diakses dan lebih mudah digunakan.
Hitung MFCC dari Sinyal Audio
Pustaka Python SpeechPy telah memberikan dukungan lengkap untuk menghitung fitur MFCC dari sinyal audio di dalam aplikasi mereka sendiri. Pustaka telah memberikan dukungan untuk beberapa fitur MFCC penting seperti frekuensi pengambilan sampel sinyal, panjang setiap frame dalam detik, langkah antar frame berturut-turut dalam detik, menerapkan filter dari bank filter, jumlah titik FFT, tepi pita terendah dari filter mel , tepi pita tertinggi dari filter mel, Jumlah koefisien cepstral dan banyak lagi.
Ekstrak Audio menggunakan Autoencoder
Pustaka Python open source SpeechPy memungkinkan pemrogram komputer untuk mengekstrak data audio menggunakan kode Python. Autoencoder adalah teknik pembelajaran yang sangat efektif untuk jaringan saraf yang mempelajari representasi data yang efisien. Jaringan autoencoder saling belajar bagaimana mengompresi data dari lapisan input menjadi kode yang lebih pendek, dan kemudian membuka kompresi kode itu ke dalam format apa pun yang paling cocok dengan input asli.