Librosa

کتابخانه منبع باز پایتون برای پردازش صدا

Python API که به توسعه‌دهندگان اجازه می‌دهد صدا را از دیسک بارگیری و پخش کنند، نمایش‌های طیف‌گرام مختلف را محاسبه کنند و موارد دیگر.

Librosa یک کتابخانه بسیار مفید موسیقی و تجزیه و تحلیل صوتی پایتون است که به توسعه دهندگان نرم افزار کمک می کند تا برنامه هایی را برای کار با فرمت های فایل های صوتی و موسیقی با استفاده از Python بسازند. استفاده از این کتابخانه بسیار آسان است و می تواند کارهای اولیه و همچنین پیشرفته مربوط به پردازش صدا و موسیقی را انجام دهد. این کتابخانه منبع باز است و به صورت رایگان تحت مجوز ISC در دسترس است.

این کتابخانه انعطاف‌پذیری زیادی را برای کاربران متخصص و در عین حال برای کاربران مبتدی که علاقه‌مند به پردازش فایل‌های صوتی هستند بسیار جذاب است. این کتابخانه شامل پشتیبانی از چندین ویژگی مهم مربوط به پردازش و استخراج فایل‌های صوتی مانند بارگیری صدا از دیسک، محاسبه نمایش‌های طیف‌نگاری مختلف، جداسازی منبع هارمونیک-ضربه‌ای، تجزیه طیف‌گرام عمومی، بارگیری و رمزگشایی صدا، پردازش صوتی در حوزه زمانی، مدل سازی متوالی، ادغام جداسازی هارمونیک-ضربه ای، ضرب سنکرون و بسیاری موارد دیگر.

در یک نگاه

مروری بر ویژگی‌های Librosa.

بررسی اجمالی ویژگی ها

پخش صدا
تصویرسازی صدا
استخراج ویژگی های صوتی
فایل های صوتی را مدیریت کنید
پشتیبانی از MP3
جن های صوتی
ذخیره خودکار
لبه دسته
فایل های صوتی را رمزگذاری می کند
فایل های صوتی را رمزگشایی می کند
مدل سازی متوالی
ضرب و شتم همزمان

Librosa

Librosa از قالب‌های فایل صوتی مطابق فهرست زیر پشتیبانی می‌کند.

خواننده

MP3, WAV, WMA, WEBM

نویسنده

MP3, WAV, WMA, WEBM

Librosa

سکوی استقلال

Librosa فقط به زمان اجرا پایتون نیاز دارد.

پایتون

Librosa

شروع کار با Librosa

ساده ترین راه برای نصب Librosa استفاده از فهرست بسته پایتون (PyPI) است. لطفا برای نصب کامل از دستور زیر استفاده کنید.

Librosa را با استفاده از PyPI نصب کنید

 python -m pip install librosa

بارگذاری و تجسم فایل های صوتی از طریق پایتون

کتابخانه Python Librosa به برنامه نویسان نرم افزار اجازه می دهد تا فایل های صوتی را در برنامه پایتون خود بارگذاری و تجسم کنند. اول از همه، باید فایل صوتی را بارگذاری کرده و با استفاده از دستور پایتون در Jupyter Notebook آن را پخش کنید. در مرحله بعد، می توانید به راحتی سیگنال نمونه برداری شده را تجسم کرده و آن را رسم کنید. شما می توانید از تجسم شکل موج دامنه در مقابل نمایش زمانی سیگنال استفاده کنید یا همچنین می توانید از تجسم طیف نگاری یا محور Log-frequency استفاده کنید.

ایجاد و ذخیره سیگنال صوتی از طریق پایتون

سیگنال های آنالوگ و دیجیتال هر دو انواع مختلفی از سیگنال ها هستند که می توانند اطلاعات را حمل کنند. سیگنال صوتی دیجیتال یک آرایه NumPy با فرکانس و نرخ نمونه مشخص است. از طرف دیگر، فرمت موج آنالوگ سیگنال صوتی یک تابع را نشان می دهد. کتابخانه منبع باز Python Librosa به توسعه دهندگان نرم افزار این قدرت را می دهد که یک سیگنال صوتی ایجاد کرده و با استفاده از کد پایتون آن را در محل مورد نظر خود ذخیره کنند.

استخراج ویژگی صوتی با استفاده از پایتون

کتابخانه منبع باز Python Librosa به توسعه دهندگان نرم افزار این قابلیت را می دهد که با استفاده از دستورات پایتون ویژگی های صوتی را در برنامه های خود بارگیری و استخراج کنند. روش‌های مختلفی برای استخراج ویژگی‌ها از داده‌های صوتی وجود دارد، مانند نرخ تقاطع صفر، فرکانس چرخش طیفی، ضرایب مغزی فرکانس Mel (MFCC)، فرکانس‌های کروما، و بسیاری موارد دیگر.