SpeechPy

مكتبة بايثون مفتوحة المصدر للتعرف على الكلام

Python API التي تدعم معالجة الكلام وكذلك عمليات التعرف. كما أنها تدعم MFCCs وطاقات مصفاة التصفية جنبًا إلى جنب مع الطاقة اللوجارية لبنوك التصفية.

قدمت مكتبة Spe echPy مجموعة من الأساليب المفيدة لمعالجة الكلام بالإضافة إلى التعرف وعمليات ما بعد المعالجة المهمة باستخدام أوامر Python. تدعم مكتبة SpeechPy ميزات الكلام المتقدمة المتنوعة مثل MFCCs وطاقات تصفية البنك جنبًا إلى جنب مع طاقة السجل لبنوك التصفية.

تهدف المكتبة أيضًا إلى توفير جميع الوظائف اللازمة لتطبيقات التعلم العميق مثل التعرف على الكلام (AS) أو التعرف التلقائي على الكلام (ASR). لقد قدم العديد من الوظائف المهمة لحساب ميزات الكلام الرئيسية مثل حساب ميزات MFCC من إشارة صوتية ، وحوسبة طاقة mel-filter-bank ، وسجلات الحوسبة Mel-filter-bank ميزات الطاقة من إشارة صوتية ، واستخراج ميزات مشتقة مؤقتة ، واستخراج معامل cepstral تردد ميل ، وأكثر من ذلك بكثير.

لمحة سريعة

نظرة عامة على ميزات SpeechPy.

نظرة عامة على الميزات

معالجة الكلام
التعرف على الكلام
حساب MFCCs
طاقات Filterbank
دعم MP3
المعالجة البعدية
استخدم المبرمجين الآليين
استخراج الصوت
صوت إلى نص

الكلام

يدعم SpeechPy تنسيقات ملفات الصوت كما هو موضح أدناه.

قارئ

MP3, WAV, WMA, WEBM

كاتب

MP3, WAV, WMA, WEBM

الكلام

منصة الاستقلال

يتطلب SpeechPy وقت تشغيل Python فقط.

بايثون 2.6 وما فوق.

الكلام

الشروع في العمل SpeechPy

أسهل طريقة لتثبيت مكتبة SpeechPy هي استخدام Python Package Index (PyPI). الرجاء استخدام الأمر التالي للتثبيت الكامل.

قم بتثبيت SpeechPy باستخدام PyPI

 pip install speechpy

التعرف على الكلام عبر بايثون

يهتم التعرف على الكلام بشكل أساسي بالتعرف على اللغة المنطوقة وترجمتها إلى نص بواسطة أجهزة الكمبيوتر. مكتبة Python مفتوحة المصدر SpeechPy تمكن مطوري البرامج من إنشاء تطبيقات تدعم ميزات التعرف على الكلام. يساعد المستخدمين على توفير الوقت من خلال التحدث بدلاً من الكتابة. وبالتالي مساعدة المستخدمين على التواصل مع أجهزتهم بجهد أقل وجعل الأجهزة التكنولوجية أكثر سهولة وسهولة في الاستخدام.

حساب MFCC من إشارة الصوت

قدمت مكتبة SpeechPy في Python دعمًا كاملاً لحوسبة ميزات MFCC من إشارة صوتية داخل تطبيقاتها الخاصة. قدمت المكتبة الدعم للعديد من ميزات MFCC المهمة مثل تردد أخذ العينات للإشارة ، وطول كل إطار بالثواني ، والخطوة بين الإطارات المتتالية في ثوانٍ ، وتطبيق المرشحات من بنك المرشح ، وعدد نقاط FFT ، وأقل حافة نطاق لمرشحات ميل ، أعلى حافة نطاق لمرشحات ميل ، وعدد معاملات سيبسترال وأكثر من ذلك.

استخراج الصوت باستخدام Autoencoders

مكتبة Python مفتوحة المصدر SpeechPy تمكن مبرمجي الكمبيوتر من استخراج البيانات الصوتية باستخدام كود Python. يعد Autoencoder أسلوبًا تعليميًا فعالاً للغاية للشبكات العصبية التي تتعلم تمثيل البيانات بكفاءة. تتعلم شبكات التشفير التلقائي من بعضها البعض كيفية ضغط البيانات من طبقة الإدخال إلى رمز أقصر ، ثم إلغاء ضغط هذا الرمز إلى أي تنسيق يطابق الإدخال الأصلي بشكل أفضل.