SpeechPy
مكتبة بايثون مفتوحة المصدر للتعرف على الكلام
Python API التي تدعم معالجة الكلام وكذلك عمليات التعرف. كما أنها تدعم MFCCs وطاقات مصفاة التصفية جنبًا إلى جنب مع الطاقة اللوجارية لبنوك التصفية.
قدمت مكتبة Spe echPy مجموعة من الأساليب المفيدة لمعالجة الكلام بالإضافة إلى التعرف وعمليات ما بعد المعالجة المهمة باستخدام أوامر Python. تدعم مكتبة SpeechPy ميزات الكلام المتقدمة المتنوعة مثل MFCCs وطاقات تصفية البنك جنبًا إلى جنب مع طاقة السجل لبنوك التصفية.
تهدف المكتبة أيضًا إلى توفير جميع الوظائف اللازمة لتطبيقات التعلم العميق مثل التعرف على الكلام (AS) أو التعرف التلقائي على الكلام (ASR). لقد قدم العديد من الوظائف المهمة لحساب ميزات الكلام الرئيسية مثل حساب ميزات MFCC من إشارة صوتية ، وحوسبة طاقة mel-filter-bank ، وسجلات الحوسبة Mel-filter-bank ميزات الطاقة من إشارة صوتية ، واستخراج ميزات مشتقة مؤقتة ، واستخراج معامل cepstral تردد ميل ، وأكثر من ذلك بكثير.
الشروع في العمل SpeechPy
أسهل طريقة لتثبيت مكتبة SpeechPy هي استخدام Python Package Index (PyPI). الرجاء استخدام الأمر التالي للتثبيت الكامل.
قم بتثبيت SpeechPy باستخدام PyPI
pip install speechpy
التعرف على الكلام عبر بايثون
يهتم التعرف على الكلام بشكل أساسي بالتعرف على اللغة المنطوقة وترجمتها إلى نص بواسطة أجهزة الكمبيوتر. مكتبة Python مفتوحة المصدر SpeechPy تمكن مطوري البرامج من إنشاء تطبيقات تدعم ميزات التعرف على الكلام. يساعد المستخدمين على توفير الوقت من خلال التحدث بدلاً من الكتابة. وبالتالي مساعدة المستخدمين على التواصل مع أجهزتهم بجهد أقل وجعل الأجهزة التكنولوجية أكثر سهولة وسهولة في الاستخدام.
حساب MFCC من إشارة الصوت
قدمت مكتبة SpeechPy في Python دعمًا كاملاً لحوسبة ميزات MFCC من إشارة صوتية داخل تطبيقاتها الخاصة. قدمت المكتبة الدعم للعديد من ميزات MFCC المهمة مثل تردد أخذ العينات للإشارة ، وطول كل إطار بالثواني ، والخطوة بين الإطارات المتتالية في ثوانٍ ، وتطبيق المرشحات من بنك المرشح ، وعدد نقاط FFT ، وأقل حافة نطاق لمرشحات ميل ، أعلى حافة نطاق لمرشحات ميل ، وعدد معاملات سيبسترال وأكثر من ذلك.
استخراج الصوت باستخدام Autoencoders
مكتبة Python مفتوحة المصدر SpeechPy تمكن مبرمجي الكمبيوتر من استخراج البيانات الصوتية باستخدام كود Python. يعد Autoencoder أسلوبًا تعليميًا فعالاً للغاية للشبكات العصبية التي تتعلم تمثيل البيانات بكفاءة. تتعلم شبكات التشفير التلقائي من بعضها البعض كيفية ضغط البيانات من طبقة الإدخال إلى رمز أقصر ، ثم إلغاء ضغط هذا الرمز إلى أي تنسيق يطابق الإدخال الأصلي بشكل أفضل.