SpeechPy

Open-Source-Python-Bibliothek für Spracherkennung

Python-API, die Sprachverarbeitung und Erkennungsvorgänge unterstützt. Es unterstützt neben der Log-Energie von Filterbänken auch MFCCs und Filterbankenergien.

Die SpeechPy-Bibliothek hat eine Reihe nützlicher Techniken für die Sprachverarbeitung sowie Erkennung und wichtige Nachbearbeitungsvorgänge mit Python-Befehlen bereitgestellt. Verschiedene fortschrittliche Sprachfunktionen wie MFCCs und Filterbankenergien neben der Log-Energie von Filterbanken werden von der SpeechPy-Bibliothek vollständig unterstützt.

Die Bibliothek zielt auch darauf ab, alle notwendigen Funktionalitäten für Deep-Learning-Anwendungen wie Spracherkennung (AS) oder automatische Spracherkennung (ASR) bereitzustellen. Es hat mehrere wichtige Funktionen zum Berechnen der Hauptsprachmerkmale bereitgestellt, wie z. B. Berechnen von MFCC-Merkmalen aus einem Audiosignal, Berechnen von Mel-Filterbank-Energie, Berechnen von Protokoll-Mel-Filterbank-Energiemerkmalen aus einem Audiosignal, Extrahieren von zeitlich abgeleiteten Merkmalen, Extrahieren Mel-Frequenz-Cepstral-Koeffizient und viele mehr.

Auf einen Blick

Eine Übersicht über SpeechPy-Funktionen.

Funktionsübersicht

Sprachverarbeitung
Spracherkennung
MFCCs berechnen
Filterbank-Energien
MP3-Unterstützung
Nachbearbeitung
Verwenden Sie Autoencoder
Audio extrahieren
Audio zu Text

SpeechPy

SpeechPy unterstützt die unten aufgeführten Audiodateiformate.

Leser

MP3, WAV, WMA, WEBM

Schriftsteller

MP3, WAV, WMA, WEBM

SpeechPy

Plattformunabhängigkeit

SpeechPy erfordert nur die Python-Laufzeit.

Python 2.6 und höher.

SpeechPy

Erste Schritte mit SpeechPy

Der einfachste Weg, die SpeechPy-Bibliothek zu installieren, ist die Verwendung des Python Package Index (PyPI). Bitte verwenden Sie den folgenden Befehl für eine vollständige Installation.

Installieren Sie SpeechPy mit PyPI

 pip install speechpy

Spracherkennung über Python

Die Spracherkennung befasst sich hauptsächlich mit der Erkennung und Übersetzung von gesprochener Sprache in Text durch Computer. Die Open-Source-Python-Bibliothek SpeechPy ermöglicht es Softwareentwicklern, Anwendungen zu erstellen, die Spracherkennungsfunktionen unterstützen. Es hilft Benutzern, Zeit zu sparen, indem sie sprechen, anstatt zu tippen. So können Benutzer mit weniger Aufwand mit ihren Geräten kommunizieren und technologische Geräte zugänglicher und einfacher zu bedienen machen.

Berechne MFCC aus dem Audiosignal

Die Python-Bibliothek SpeechPy bietet vollständige Unterstützung für die Berechnung von MFCC-Funktionen aus einem Audiosignal in ihren eigenen Anwendungen. Die Bibliothek hat Unterstützung für mehrere wichtige MFCC-Funktionen bereitgestellt, z. B. Abtastfrequenz des Signals, Länge jedes Frames in Sekunden, Schritt zwischen aufeinanderfolgenden Frames in Sekunden, Anwendung von Filtern aus der Filterbank, Anzahl der FFT-Punkte, niedrigste Bandkante von Mel-Filtern , höchste Bandkante von Mel-Filtern, Anzahl der Cepstral-Koeffizienten und mehr.

Extrahieren Sie Audio mit Autoencodern

Die Open-Source-Python-Bibliothek SpeechPy ermöglicht Computerprogrammierern, Audiodaten mit Python-Code zu extrahieren. Autoencoder ist eine sehr effektive Lerntechnik für neuronale Netze, die effiziente Datendarstellungen lernt. Autoencoder-Netzwerke lernen voneinander, wie Daten aus der Eingabeschicht in einen kürzeren Code komprimiert werden, und dekomprimieren diesen Code dann in das Format, das am besten zur ursprünglichen Eingabe passt.