SpeechPy

 
 

Thư viện Python nguồn mở để nhận dạng giọng nói

API Python hỗ trợ xử lý giọng nói cũng như các hoạt động nhận dạng. Nó cũng hỗ trợ MFCC và năng lượng ngân hàng bộ lọc cùng với năng lượng log của ngân hàng bộ lọc. 

Thư viện Spe echPy đã cung cấp một tập hợp các kỹ thuật hữu ích để xử lý giọng nói cũng như nhận dạng và các hoạt động xử lý hậu kỳ quan trọng bằng cách sử dụng các lệnh Python. Các tính năng giọng nói nâng cao khác nhau như MFCC và năng lượng ngân hàng bộ lọc cùng với năng lượng nhật ký của ngân hàng bộ lọc được thư viện SpeechPy hỗ trợ đầy đủ.

Thư viện cũng nhằm mục đích cung cấp tất cả các chức năng cần thiết cho các ứng dụng học sâu như nhận dạng giọng nói (AS) hoặc nhận dạng giọng nói tự động (ASR). Nó đã cung cấp một số chức năng quan trọng để tính toán các tính năng giọng nói chính như tính toán các tính năng của MFCC từ tín hiệu âm thanh, tính toán năng lượng ngân hàng bộ lọc mel, nhật ký tính toán các tính năng ngân hàng bộ lọc Mel từ tín hiệu âm thanh, trích xuất các tính năng đạo hàm thời gian, trích xuất hệ số cepstral tần số mel, và nhiều hơn nữa.

Previous Next

Bắt đầu với SpeechPy

Cách dễ nhất để cài đặt thư viện SpeechPy là sử dụng Chỉ mục gói Python (PyPI). Vui lòng sử dụng lệnh sau để cài đặt hoàn chỉnh.

Cài đặt SpeechPy bằng PyPI

 pip install speechpy 

Nhận dạng giọng nói qua Python

Nhận dạng giọng nói chủ yếu liên quan đến việc máy tính nhận dạng và dịch ngôn ngữ nói thành văn bản. Thư viện Python mã nguồn mở SpeechPy cho phép các nhà phát triển phần mềm tạo các ứng dụng hỗ trợ các tính năng nhận dạng giọng nói. Nó giúp người dùng tiết kiệm thời gian bằng cách nói thay vì gõ. Do đó, giúp người dùng giao tiếp với thiết bị của họ ít tốn sức hơn và làm cho các thiết bị công nghệ trở nên dễ tiếp cận và dễ sử dụng hơn.

Tính toán MFCC từ tín hiệu âm thanh

Thư viện Python SpeechPy đã cung cấp hỗ trợ hoàn chỉnh cho việc tính toán các tính năng của MFCC từ tín hiệu âm thanh bên trong các ứng dụng của riêng họ. Thư viện đã cung cấp hỗ trợ cho một số tính năng MFCC quan trọng như tần số lấy mẫu của tín hiệu, độ dài của mỗi khung hình tính bằng giây, bước giữa các khung hình liên tiếp trong vài giây, áp dụng bộ lọc từ ngân hàng bộ lọc, số điểm FFT, cạnh dải thấp nhất của bộ lọc mel , cạnh dải cao nhất của bộ lọc mel, Số lượng hệ số cepstral và hơn thế nữa.

Trích xuất âm thanh bằng Autoencoders

Thư viện Python mã nguồn mở SpeechPy cho phép các lập trình viên máy tính trích xuất dữ liệu âm thanh bằng cách sử dụng mã Python. Autoencoder là một kỹ thuật học rất hiệu quả cho các mạng nơ-ron học các biểu diễn dữ liệu hiệu quả. Các mạng tự động mã hóa học lẫn nhau cách nén dữ liệu từ lớp đầu vào thành một mã ngắn hơn, sau đó giải nén mã đó thành bất kỳ định dạng nào phù hợp nhất với đầu vào ban đầu.

 Tiếng Việt