SpeechPy

Pustaka Python Sumber Terbuka untuk Pengenalan Ucapan

Python API yang mendukung pemrosesan ucapan serta operasi pengenalan. Ini juga mendukung MFCC dan energi bank filter di samping energi log bank filter.

Pustaka SpeechPy telah menyediakan serangkaian teknik yang berguna untuk pemrosesan ucapan serta pengenalan dan operasi pasca-pemrosesan yang penting menggunakan perintah Python. Berbagai fitur ucapan lanjutan seperti MFCC dan energi bank filter di samping energi log bank filter didukung penuh oleh pustaka SpeechPy.

Perpustakaan ini juga bertujuan untuk menyediakan semua fungsi yang diperlukan untuk aplikasi pembelajaran mendalam seperti pengenalan suara (AS) atau pengenalan suara otomatis (ASR). Ini telah menyediakan beberapa fungsi penting untuk menghitung fitur ucapan utama seperti menghitung fitur MFCC dari sinyal audio, menghitung energi mel-filter-bank, menghitung fitur energi mel-filter-bank dari sinyal audio, mengekstraksi fitur turunan temporal, mengekstraksi koefisien cepstral frekuensi mel, dan banyak lagi.

Sekilas

Ikhtisar fitur SpeechPy.

Ikhtisar Fitur

Pemrosesan Ucapan
Pengenalan suara
Hitung MFCC
Filter bank energi
dukungan MP3
Pengolahan pasca
Gunakan Autoencoder
Ekstrak Audio
Audio ke Teks

UcapanPy

SpeechPy mendukung format file Audio seperti yang tercantum di bawah ini.

Pembaca

MP3, WAV, WMA, WEBM

Penulis

MP3, WAV, WMA, WEBM

UcapanPy

Platform Kemerdekaan

SpeechPy hanya membutuhkan waktu proses Python.

Python 2.6 & Di Atas.

UcapanPy

Memulai dengan SpeechPy

Cara termudah untuk menginstal perpustakaan SpeechPy adalah menggunakan Python Package Index (PyPI). Silakan gunakan perintah berikut untuk instalasi lengkap.

Instal SpeechPy menggunakan PyPI

 pip install speechpy

Pengenalan Ucapan melalui Python

Speech Recognition terutama berkaitan dengan pengenalan dan terjemahan bahasa lisan ke dalam teks oleh komputer. Pustaka Python open source SpeechPy memungkinkan pengembang perangkat lunak untuk membuat aplikasi yang mendukung fitur pengenalan suara. Ini membantu pengguna menghemat waktu dengan berbicara daripada mengetik. Dengan demikian membantu pengguna untuk berkomunikasi dengan perangkat mereka dengan sedikit usaha dan membuat perangkat teknologi lebih mudah diakses dan lebih mudah digunakan.

Hitung MFCC dari Sinyal Audio

Pustaka Python SpeechPy telah memberikan dukungan lengkap untuk menghitung fitur MFCC dari sinyal audio di dalam aplikasi mereka sendiri. Pustaka telah memberikan dukungan untuk beberapa fitur MFCC penting seperti frekuensi pengambilan sampel sinyal, panjang setiap frame dalam detik, langkah antar frame berturut-turut dalam detik, menerapkan filter dari bank filter, jumlah titik FFT, tepi pita terendah dari filter mel , tepi pita tertinggi dari filter mel, Jumlah koefisien cepstral dan banyak lagi.

Ekstrak Audio menggunakan Autoencoder

Pustaka Python open source SpeechPy memungkinkan pemrogram komputer untuk mengekstrak data audio menggunakan kode Python. Autoencoder adalah teknik pembelajaran yang sangat efektif untuk jaringan saraf yang mempelajari representasi data yang efisien. Jaringan autoencoder saling belajar bagaimana mengompresi data dari lapisan input menjadi kode yang lebih pendek, dan kemudian membuka kompresi kode itu ke dalam format apa pun yang paling cocok dengan input asli.