SpeechPy

स्पीच रिकग्निशन के लिए ओपन सोर्स पायथन लाइब्रेरी

पायथन एपीआई जो भाषण प्रसंस्करण के साथ-साथ पहचान संचालन का समर्थन करता है। यह फिल्टर-बैंकों की लॉग-एनर्जी के साथ-साथ एमएफसीसी और फिल्टर-बैंक ऊर्जा का भी समर्थन करता है।

SpeechPy लाइब्रेरी ने पायथन कमांड का उपयोग करके भाषण प्रसंस्करण के साथ-साथ मान्यता और महत्वपूर्ण पोस्ट-प्रोसेसिंग संचालन के लिए उपयोगी तकनीकों का एक सेट प्रदान किया है। फ़िल्टर-बैंकों की लॉग-एनर्जी के साथ-साथ एमएफसीसी और फ़िल्टर-बैंक ऊर्जा जैसी विभिन्न उन्नत भाषण सुविधाएं SpeechPy लाइब्रेरी द्वारा पूरी तरह से समर्थित हैं।

पुस्तकालय का उद्देश्य वाक् पहचान (एएस) या स्वचालित वाक् पहचान (एएसआर) जैसे गहन शिक्षण अनुप्रयोगों के लिए सभी आवश्यक कार्यात्मकताएं प्रदान करना है। इसने मुख्य भाषण सुविधाओं की गणना के लिए कई महत्वपूर्ण कार्य प्रदान किए हैं जैसे ऑडियो सिग्नल से एमएफसीसी सुविधाओं की गणना, मेल-फिल्टर-बैंक ऊर्जा की गणना, ऑडियो सिग्नल से लॉग मेल-फिल्टर-बैंक ऊर्जा सुविधाओं की गणना, अस्थायी व्युत्पन्न सुविधाओं को निकालना, निकालना मेल आवृत्ति सेस्ट्रल गुणांक, और भी बहुत कुछ।

एक नजर में

स्पीचपी सुविधाओं का एक सिंहावलोकन।

विशेषताएं अवलोकन

भाषण प्रसंस्करण
वाक् पहचान
एमएफसीसी की गणना करें
फ़िल्टरबैंक ऊर्जा
एमपी3 समर्थन
प्रोसेसिंग के बाद
Autoencoders का उपयोग करें
ऑडियो निकालें
ऑडियो टू टेक्स्ट

भाषणपी

स्पीचपी नीचे सूचीबद्ध ऑडियो फ़ाइल स्वरूपों का समर्थन करता है।

रीडर

MP3, WAV, WMA, WEBM

लेखक

MP3, WAV, WMA, WEBM

भाषणपी

प्लेटफार्म स्वतंत्रता

स्पीचपी को केवल पायथन रनटाइम की आवश्यकता होती है।

पायथन 2.6 और ऊपर।

भाषणपी

SpeechPy . के साथ शुरुआत करना

स्पीचपी लाइब्रेरी को स्थापित करने का सबसे आसान तरीका पायथन पैकेज इंडेक्स (पीईपीआई) का उपयोग करना है। पूर्ण स्थापना के लिए कृपया निम्न आदेश का उपयोग करें।

PyPI का उपयोग करके स्पीचपी स्थापित करें

 pip install speechpy

पायथन के माध्यम से भाषण पहचान

वाक् पहचान मुख्य रूप से कंप्यूटर द्वारा बोली जाने वाली भाषा की पहचान और पाठ में अनुवाद से संबंधित है। ओपन सोर्स पायथन लाइब्रेरी स्पीचपी सॉफ्टवेयर डेवलपर्स को वाक् पहचान सुविधाओं का समर्थन करने वाले एप्लिकेशन बनाने में सक्षम बनाता है। यह उपयोगकर्ताओं को टाइप करने के बजाय बोलकर समय बचाने में मदद करता है। इस प्रकार उपयोगकर्ताओं को कम प्रयास के साथ अपने उपकरणों के साथ संवाद करने में मदद करना और तकनीकी उपकरणों को अधिक सुलभ और उपयोग में आसान बनाना।

ऑडियो सिग्नल से एमएफसीसी की गणना करें

पायथन लाइब्रेरी स्पीचपी ने अपने स्वयं के अनुप्रयोगों के अंदर एक ऑडियो सिग्नल से एमएफसीसी सुविधाओं की गणना के लिए पूर्ण समर्थन प्रदान किया है। पुस्तकालय ने कई महत्वपूर्ण एमएफसीसी सुविधाओं के लिए समर्थन प्रदान किया है जैसे सिग्नल की नमूना आवृत्ति, सेकंड में प्रत्येक फ्रेम की लंबाई, सेकंड में लगातार फ्रेम के बीच कदम, फिल्टर-बैंक से फिल्टर लागू करना, एफएफटी बिंदुओं की संख्या, मेल फिल्टर का सबसे निचला बैंड किनारा , मेल फिल्टर का उच्चतम बैंड एज, सेस्ट्रल गुणांकों की संख्या और बहुत कुछ।

Autoencoders का उपयोग करके ऑडियो निकालें

ओपन सोर्स पायथन लाइब्रेरी स्पीचपी कंप्यूटर प्रोग्रामर को पायथन कोड का उपयोग करके ऑडियो डेटा निकालने में सक्षम बनाता है। Autoencoder तंत्रिका नेटवर्क के लिए एक बहुत ही प्रभावी शिक्षण तकनीक है जो कुशल डेटा प्रतिनिधित्व सीखती है। Autoencoder नेटवर्क एक दूसरे से सीखते हैं कि इनपुट परत से डेटा को छोटे कोड में कैसे संपीड़ित किया जाए, और फिर उस कोड को मूल इनपुट से सबसे अच्छा मेल खाने वाले प्रारूप में असम्पीडित किया जाए।