1. Produkty
  2.   Audio
  3.   Python
  4.   SpeechPy

SpeechPy

 
 

Biblioteka Open Source Python do rozpoznawania mowy

Interfejs API języka Python obsługujący przetwarzanie mowy oraz operacje rozpoznawania. Obsługuje również MFCC i energie banków filtrów wraz z energią logarytmiczną banków filtrów. 

Biblioteka SpeechPy zawiera zestaw przydatnych technik przetwarzania mowy, a także rozpoznawania i ważnych operacji przetwarzania końcowego przy użyciu poleceń Pythona. Biblioteka SpeechPy obsługuje różne zaawansowane funkcje mowy, takie jak MFCC i energie banków filtrów, a także energię logarytmiczną banków filtrów.

Biblioteka ma również na celu dostarczenie wszystkich niezbędnych funkcji do aplikacji głębokiego uczenia, takich jak rozpoznawanie mowy (AS) lub automatyczne rozpoznawanie mowy (ASR). Zapewnia kilka ważnych funkcji do obliczania głównych cech mowy, takich jak obliczanie cech MFCC z sygnału audio, obliczanie energii banków filtrów mel, obliczanie dziennika funkcji energii banku filtrów Mel z sygnału audio, wyodrębnianie funkcji pochodnych czasowych, wyodrębnianie współczynnik cepstralny częstotliwości mel i wiele innych.

Previous Next

Pierwsze kroki z SpeechPy

Najłatwiejszym sposobem zainstalowania biblioteki SpeechPy jest użycie Python Package Index (PyPI). Użyj następującego polecenia, aby przeprowadzić pełną instalację.

Zainstaluj SpeechPy za pomocą PyPI

 pip install speechpy 

Rozpoznawanie mowy przez Pythona

Rozpoznawanie mowy dotyczy głównie rozpoznawania i tłumaczenia języka mówionego na tekst przez komputery. Biblioteka SpeechPy w języku open source w języku Python umożliwia programistom tworzenie aplikacji obsługujących funkcje rozpoznawania mowy. Pomaga użytkownikom zaoszczędzić czas, mówiąc zamiast pisać. W ten sposób pomagając użytkownikom komunikować się z ich urządzeniami przy mniejszym wysiłku i czyniąc urządzenia technologiczne bardziej dostępnymi i łatwiejszymi w użyciu.

Oblicz MFCC z sygnału audio

Biblioteka Pythona SpeechPy zapewniła pełne wsparcie dla obliczania funkcji MFCC z sygnału audio wewnątrz własnych aplikacji. Biblioteka zapewnia obsługę kilku ważnych funkcji MFCC, takich jak częstotliwość próbkowania sygnału, długość każdej klatki w sekundach, krok między kolejnymi klatkami w sekundach, zastosowanie filtrów z banku filtrów, liczba punktów FFT, dolna krawędź pasma filtrów mel , najwyższa krawędź pasma filtrów mel, liczba współczynników cepstralnych i więcej.

Wyodrębnij dźwięk za pomocą autokoderów

Biblioteka Pythona o otwartym kodzie źródłowym SpeechPy umożliwia programistom komputerowym wyodrębnianie danych dźwiękowych za pomocą kodu Pythona. Autoenkoder to bardzo skuteczna technika uczenia sieci neuronowych, która uczy się wydajnych reprezentacji danych. Sieci autokoderów uczą się od siebie nawzajem, jak kompresować dane z warstwy wejściowej do krótszego kodu, a następnie dekompresować ten kod do dowolnego formatu, który najlepiej pasuje do oryginalnego sygnału wejściowego.

 Polski