SpeechPy

 
 

স্পিচ রিকগনিশনের জন্য ওপেন সোর্স পাইথন লাইব্রেরি

Python API যা স্পিচ প্রসেসিং এবং সেইসাথে শনাক্তকরণ ক্রিয়াকলাপ সমর্থন করে। এটি ফিল্টার-ব্যাঙ্কের লগ-এনার্জির পাশাপাশি MFCC এবং ফিল্টার-ব্যাঙ্ক শক্তিগুলিকেও সমর্থন করে৷ 

SpeechPy লাইব্রেরি পাইথন কমান্ড ব্যবহার করে বক্তৃতা প্রক্রিয়াকরণের পাশাপাশি স্বীকৃতি এবং গুরুত্বপূর্ণ পোস্ট-প্রসেসিং অপারেশনের জন্য দরকারী কৌশলগুলির একটি সেট সরবরাহ করেছে। বিভিন্ন উন্নত বক্তৃতা বৈশিষ্ট্য যেমন MFCC এবং ফিল্টার-ব্যাঙ্কের লগ-এনার্জির পাশাপাশি ফিল্টার-ব্যাঙ্ক শক্তিগুলি সম্পূর্ণরূপে SpeechPy লাইব্রেরি দ্বারা সমর্থিত।

লাইব্রেরির লক্ষ্য হল গভীর শিক্ষার অ্যাপ্লিকেশনগুলির জন্য প্রয়োজনীয় সমস্ত কার্যকারিতা যেমন স্পিচ রিকগনিশন (AS) বা স্বয়ংক্রিয় স্পিচ রিকগনিশন (ASR) প্রদান করা। এটি একটি অডিও সিগন্যাল থেকে MFCC বৈশিষ্ট্যগুলি গণনা করা, অডিও সংকেত থেকে মেল-ফিল্টার-ব্যাঙ্ক শক্তির কম্পিউটিং লগ মেল-ফিল্টার-ব্যাঙ্ক শক্তি বৈশিষ্ট্যগুলি, অস্থায়ী ডেরিভেটিভ বৈশিষ্ট্যগুলি নিষ্কাশন করা, নিষ্কাশন করার মতো প্রধান বক্তৃতা বৈশিষ্ট্যগুলি গণনা করার জন্য বেশ কয়েকটি গুরুত্বপূর্ণ ফাংশন প্রদান করেছে। মেল ফ্রিকোয়েন্সি সেপস্ট্রাল সহগ, এবং আরও অনেক কিছু।

Previous Next

SpeechPy দিয়ে শুরু করা

SpeechPy লাইব্রেরি ইনস্টল করার সবচেয়ে সহজ উপায় হল Python Package Index (PyPI) ব্যবহার করা। একটি সম্পূর্ণ ইনস্টলেশনের জন্য নিম্নলিখিত কমান্ড ব্যবহার করুন.

PyPI ব্যবহার করে SpeechPy ইনস্টল করুন

 pip install speechpy 

পাইথনের মাধ্যমে স্পিচ রিকগনিশন

স্পিচ রিকগনিশন মূলত কম্পিউটারের মাধ্যমে কথ্য ভাষাকে পাঠ্যের মধ্যে স্বীকৃতি এবং অনুবাদের সাথে সম্পর্কিত। ওপেন সোর্স পাইথন লাইব্রেরি SpeechPy সফ্টওয়্যার ডেভেলপারদের স্পিচ রিকগনিশন বৈশিষ্ট্য সমর্থনকারী অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে। এটি ব্যবহারকারীদের টাইপ করার পরিবর্তে কথা বলে সময় বাঁচাতে সহায়তা করে। এইভাবে ব্যবহারকারীদের তাদের ডিভাইসগুলির সাথে কম প্রচেষ্টায় যোগাযোগ করতে সাহায্য করে এবং প্রযুক্তিগত ডিভাইসগুলিকে আরও অ্যাক্সেসযোগ্য এবং ব্যবহার করা সহজ করে তোলে।

অডিও সিগন্যাল থেকে MFCC গণনা করুন

Python লাইব্রেরি SpeechPy তাদের নিজস্ব অ্যাপ্লিকেশনের মধ্যে একটি অডিও সংকেত থেকে MFCC বৈশিষ্ট্যগুলি গণনা করার জন্য সম্পূর্ণ সমর্থন প্রদান করেছে। লাইব্রেরিটি বেশ কয়েকটি গুরুত্বপূর্ণ MFCC বৈশিষ্ট্যগুলির জন্য সমর্থন প্রদান করেছে যেমন সিগন্যালের নমুনা ফ্রিকোয়েন্সি, প্রতিটি ফ্রেমের দৈর্ঘ্য সেকেন্ডে, সেকেন্ডে ধারাবাহিক ফ্রেমের মধ্যে ধাপ, ফিল্টার-ব্যাঙ্ক থেকে ফিল্টার প্রয়োগ করা, FFT পয়েন্টের সংখ্যা, মেল ফিল্টারের সর্বনিম্ন ব্যান্ড প্রান্ত , মেল ফিল্টারের সর্বোচ্চ ব্যান্ড প্রান্ত, সেপস্ট্রাল সহগ সংখ্যা এবং আরও অনেক কিছু।

অটোএনকোডার ব্যবহার করে অডিও বের করুন

ওপেন সোর্স পাইথন লাইব্রেরি SpeechPy কম্পিউটার প্রোগ্রামারদের পাইথন কোড ব্যবহার করে অডিও ডেটা বের করতে সক্ষম করে। অটোএনকোডার হল নিউরাল নেটওয়ার্কগুলির জন্য একটি অত্যন্ত কার্যকর শেখার কৌশল যা দক্ষ ডেটা উপস্থাপনা শেখে। অটোএনকোডার নেটওয়ার্কগুলি একে অপরের কাছ থেকে শেখে কিভাবে ইনপুট স্তর থেকে একটি সংক্ষিপ্ত কোডে ডেটা সংকুচিত করতে হয় এবং তারপর সেই কোডটিকে যে বিন্যাসে মূল ইনপুটের সাথে সবচেয়ে ভাল মেলে সেই কোডটিকে আনকম্প্রেস করতে হয়।

 বাংলা