SpeechPy

Libreria Python open source per il riconoscimento vocale

API Python che supporta l'elaborazione vocale e le operazioni di riconoscimento. Supporta anche MFCC ed energie dei banchi di filtri insieme all'energia logaritmica dei banchi di filtri.

La libreria SpeechPy ha fornito una serie di tecniche utili per l'elaborazione vocale, il riconoscimento e importanti operazioni di post-elaborazione utilizzando i comandi Python. La libreria SpeechPy supporta diverse funzioni vocali avanzate come MFCC ed energie dei banchi di filtri insieme all'energia dei log dei banchi di filtri.

La libreria mira anche a fornire tutte le funzionalità necessarie per applicazioni di deep learning come il riconoscimento vocale (AS) o il riconoscimento vocale automatico (ASR). Ha fornito diverse funzioni importanti per il calcolo delle principali caratteristiche del parlato come il calcolo delle caratteristiche MFCC da un segnale audio, il calcolo dell'energia dei banchi di filtri mel, il calcolo delle caratteristiche energetiche dei banchi di filtri di Mel da un segnale audio, l'estrazione di caratteristiche temporali derivate, l'estrazione mel frequency cepstral coefficient e molti altri.

A prima vista

Una panoramica delle funzionalità di SpeechPy.

Panoramica delle caratteristiche

Elaborazione del discorso
Riconoscimento vocale
Calcola MFCC
Energie del banco di filtri
Supporto MP3
Post produzione
Usa i codificatori automatici
Estrai audio
Da audio a testo

SpeechPy

SpeechPy supporta i formati di file audio elencati di seguito.

Lettore

MP3, WAV, WMA, WEBM

scrittore

MP3, WAV, WMA, WEBM

SpeechPy

Indipendenza dalla piattaforma

SpeechPy richiede solo il runtime di Python.

Python 2.6 e versioni successive.

SpeechPy

Introduzione a SpeechPy

Il modo più semplice per installare la libreria SpeechPy è usare Python Package Index (PyPI). Utilizzare il comando seguente per un'installazione completa.

Installa SpeechPy usando PyPI

 pip install speechpy

Riconoscimento vocale tramite Python

Il riconoscimento vocale si occupa principalmente del riconoscimento e della traduzione della lingua parlata in testo da parte dei computer. La libreria Python open source SpeechPy consente agli sviluppatori di software di creare applicazioni che supportano le funzionalità di riconoscimento vocale. Aiuta gli utenti a risparmiare tempo parlando invece di digitare. Aiutando così gli utenti a comunicare con i propri dispositivi con meno sforzo e rendendo i dispositivi tecnologici più accessibili e più facili da usare.

Calcola MFCC dal segnale audio

La libreria Python SpeechPy ha fornito un supporto completo per il calcolo delle funzionalità MFCC da un segnale audio all'interno delle proprie applicazioni. La libreria ha fornito supporto per diverse importanti funzionalità MFCC come frequenza di campionamento del segnale, lunghezza di ciascun frame in secondi, passaggio tra frame successivi in secondi, applicazione di filtri dal banco di filtri, numero di punti FFT, bordo di banda più basso dei filtri mel , limite di banda più alto dei filtri mel, numero di coefficienti cepstral e altro.

Estrai l'audio usando gli autoencoder

La libreria Python open source SpeechPy consente ai programmatori di computer di estrarre dati audio utilizzando il codice Python. L'autoencoder è una tecnica di apprendimento molto efficace per le reti neurali che apprende rappresentazioni di dati efficienti. Le reti di codifica automatica imparano l'una dall'altra come comprimere i dati dal livello di input in un codice più breve, quindi decomprimere quel codice in qualsiasi formato corrisponda meglio all'input originale.