SpeechPy

Open source Python-bibliotheek voor spraakherkenning

Python-API die spraakverwerking en herkenningsbewerkingen ondersteunt. Het ondersteunt ook MFCC's en filterbank-energieën naast de log-energie van filterbanken.

De SpeechPy-bibliotheek heeft een reeks nuttige technieken geleverd voor zowel spraakverwerking als herkenning en belangrijke bewerkingen na de verwerking met behulp van Python-commando's. Verschillende geavanceerde spraakfuncties zoals MFCC's en filterbank-energieën naast de log-energie van filterbanken worden volledig ondersteund door de SpeechPy-bibliotheek.

De bibliotheek wil ook alle noodzakelijke functionaliteiten bieden voor deep learning-toepassingen zoals spraakherkenning (AS) of automatische spraakherkenning (ASR). Het heeft verschillende belangrijke functies geleverd voor het berekenen van de belangrijkste spraakkenmerken, zoals het berekenen van MFCC-kenmerken van een audiosignaal, het berekenen van mel-filter-banks-energie, het berekenen van log-mel-filter-bank-energiekenmerken van een audiosignaal, het extraheren van temporele afgeleide kenmerken, het extraheren van mel frequentie cepstrale coëfficiënt, en nog veel meer.

In een oogopslag

Een overzicht van de SpeechPy-functies.

Functies overzicht

Spraakverwerking
Spraakherkenning
MFCC's berekenen
Filterbank energie
MP3-ondersteuning
Nabewerking
Auto-encoders gebruiken
Audio extraheren
Audio naar tekst

SpeechPy

SpeechPy ondersteunt audiobestandsindelingen zoals hieronder vermeld.

Lezer

MP3, WAV, WMA, WEBM

auteur

MP3, WAV, WMA, WEBM

SpeechPy

Platformonafhankelijkheid

SpeechPy vereist alleen Python-runtime.

Python 2.6 en hoger.

SpeechPy

Aan de slag met SpeechPy

De eenvoudigste manier om de SpeechPy-bibliotheek te installeren, is door de Python Package Index (PyPI) te gebruiken. Gebruik de volgende opdracht voor een volledige installatie.

Installeer SpeechPy met PyPI

 pip install speechpy

Spraakherkenning via Python

Spraakherkenning houdt zich voornamelijk bezig met de herkenning en vertaling van gesproken taal in tekst door computers. Met de open source Python-bibliotheek SpeechPy kunnen softwareontwikkelaars toepassingen maken die spraakherkenningsfuncties ondersteunen. Het helpt gebruikers om tijd te besparen door te spreken in plaats van te typen. Zo kunnen gebruikers gemakkelijker met hun apparaten communiceren en worden technologische apparaten toegankelijker en gebruiksvriendelijker.

Bereken MFCC van audiosignaal

De Python-bibliotheek SpeechPy heeft volledige ondersteuning geboden voor het berekenen van MFCC-functies van een audiosignaal in hun eigen applicaties. De bibliotheek heeft ondersteuning geboden voor verschillende belangrijke MFCC-functies, zoals de bemonsteringsfrequentie van het signaal, de lengte van elk frame in seconden, stap tussen opeenvolgende frames in seconden, filters toepassen uit de filterbank, het aantal FFT-punten, de laagste bandrand van mel-filters , hoogste bandrand van mel-filters, aantal cepstral-coëfficiënten en meer.

Audio extraheren met Autoencoders

Met de open source Python-bibliotheek SpeechPy kunnen computerprogrammeurs audiogegevens extraheren met behulp van Python-code. Autoencoder is een zeer effectieve leertechniek voor neurale netwerken die efficiënte gegevensrepresentaties leert. Autoencoder-netwerken leren van elkaar hoe ze gegevens van de invoerlaag kunnen comprimeren tot een kortere code, en decomprimeren die code vervolgens in het formaat dat het beste overeenkomt met de oorspronkelijke invoer.