SpeechPy

음성 인식을 위한 오픈 소스 Python 라이브러리

음성 처리 및 인식 작업을 지원하는 Python API 또한 필터 뱅크의 로그 에너지와 함께 MFCC 및 필터 뱅크 에너지를 지원합니다.

SpeechPy 라이브러리는 음성 처리, 인식 및 Python 명령을 사용한 중요한 후처리 작업에 유용한 기술 세트를 제공했습니다. 필터 뱅크의 로그 에너지와 함께 MFCC 및 필터 뱅크 에너지와 같은 다양한 고급 음성 기능은 SpeechPy 라이브러리에서 완벽하게 지원됩니다.

이 라이브러리는 또한 음성 인식(AS) 또는 자동 음성 인식(ASR)과 같은 딥 러닝 응용 프로그램에 필요한 모든 기능을 제공하는 것을 목표로 합니다. 오디오 신호에서 MFCC 특성 계산, 멜 필터 뱅크 에너지 계산, 오디오 신호에서 로그 멜 필터 뱅크 에너지 특성 계산, 시간 도함수 특성 추출, mel 주파수 cepstral 계수 등.

한눈에

SpeechPy 기능의 개요입니다.

기능 개요

음성 처리
음성 인식
MFCC 계산
필터뱅크 에너지
MP3 지원
후처리
자동 인코더 사용
오디오 추출
오디오를 텍스트로

스피치파이

SpeechPy는 아래와 같은 오디오 파일 형식을 지원합니다.

리더

MP3, WAV, WMA, WEBM

작가

MP3, WAV, WMA, WEBM

스피치파이

플랫폼 독립성

SpeechPy에는 Python 런타임만 필요합니다.

파이썬 2.6 이상.

스피치파이

SpeechPy 시작하기

SpeechPy 라이브러리를 설치하는 가장 쉬운 방법은 PyPI(Python Package Index)를 사용하는 것입니다. 전체 설치를 위해 다음 명령을 사용하십시오.

PyPI를 사용하여 SpeechPy 설치

 pip install speechpy

Python을 통한 음성 인식

음성 인식은 주로 컴퓨터에 의해 음성 언어를 인식하고 텍스트로 번역하는 것과 관련이 있습니다. 오픈 소스 Python 라이브러리 SpeechPy를 사용하면 소프트웨어 개발자가 음성 인식 기능을 지원하는 애플리케이션을 만들 수 있습니다. 그것은 사용자가 타이핑하는 대신 말하기를 통해 시간을 절약하는 데 도움이 됩니다. 따라서 사용자가 적은 노력으로 장치와 통신할 수 있도록 지원하고 기술 장치를 보다 쉽게 액세스할 수 있고 사용하기 쉽게 만듭니다.

오디오 신호에서 MFCC 계산

Python 라이브러리 SpeechPy는 자체 응용 프로그램 내부의 오디오 신호에서 MFCC 기능을 계산하기 위한 완벽한 지원을 제공했습니다. 라이브러리는 신호의 샘플링 주파수, 각 프레임의 길이(초), 연속 프레임 간 단계(초), 필터 뱅크의 필터 적용, FFT 포인트 수, 멜 필터의 가장 낮은 대역 가장자리와 같은 몇 가지 중요한 MFCC 기능에 대한 지원을 제공했습니다. , 멜 필터의 가장 높은 대역 가장자리, cepstral 계수의 수 등.

자동 인코더를 사용하여 오디오 추출

오픈 소스 Python 라이브러리 SpeechPy를 사용하면 컴퓨터 프로그래머가 Python 코드를 사용하여 오디오 데이터를 추출할 수 있습니다. Autoencoder는 효율적인 데이터 표현을 학습하는 신경망을 위한 매우 효과적인 학습 기술입니다. Autoencoder 네트워크는 입력 계층의 데이터를 더 짧은 코드로 압축한 다음 원래 입력과 가장 일치하는 형식으로 해당 코드를 압축 해제하는 방법을 서로 학습합니다.