SpeechPy
ไลบรารี Python แบบโอเพ่นซอร์สสำหรับการรู้จำเสียง
Python API ที่รองรับการประมวลผลคำพูดและการดำเนินการรู้จำ นอกจากนี้ยังรองรับ MFCC และพลังงานจากตัวกรองควบคู่ไปกับพลังงานบันทึกของถังกรอง
ไลบรารี SpeechPy ได้จัดเตรียมชุดเทคนิคที่เป็นประโยชน์สำหรับการประมวลผลคำพูด รวมถึงการจดจำและการดำเนินการหลังการประมวลผลที่สำคัญโดยใช้คำสั่ง Python ไลบรารี SpeechPy รองรับฟีเจอร์เสียงพูดขั้นสูงต่างๆ เช่น MFCC และพลังงานคลังตัวกรองควบคู่ไปกับล็อกพลังงานของคลังตัวกรอง
ห้องสมุดยังมีจุดมุ่งหมายเพื่อให้ฟังก์ชันที่จำเป็นทั้งหมดสำหรับแอปพลิเคชันการเรียนรู้เชิงลึก เช่น การรู้จำเสียงพูด (AS) หรือการรู้จำคำพูดอัตโนมัติ (ASR) มีฟังก์ชันสำคัญหลายประการสำหรับการคำนวณคุณลักษณะของเสียงพูดหลัก เช่น การคำนวณคุณลักษณะ MFCC จากสัญญาณเสียง การคำนวณพลังงานธนาคารเมลกรอง บันทึกการคำนวณ คุณลักษณะพลังงานธนาคารกรองเมลจากสัญญาณเสียง การแยกคุณลักษณะอนุพันธ์ชั่วคราว การแยก ค่าสัมประสิทธิ์ของความถี่ mel และอื่น ๆ อีกมากมาย
เริ่มต้นใช้งาน SpeechPy
วิธีที่ง่ายที่สุดในการติดตั้งไลบรารี SpeechPy คือการใช้ Python Package Index (PyPI) โปรดใช้คำสั่งต่อไปนี้สำหรับการติดตั้งที่สมบูรณ์
ติดตั้ง SpeechPy โดยใช้ PyPI
pip install speechpy
การรู้จำเสียงด้วย Python
การรู้จำเสียงส่วนใหญ่เกี่ยวข้องกับการรู้จำและการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ไลบรารี Python แบบโอเพนซอร์ส SpeechPy ช่วยให้นักพัฒนาซอฟต์แวร์สร้างแอปพลิเคชันที่สนับสนุนคุณลักษณะการรู้จำเสียงพูด ช่วยให้ผู้ใช้ประหยัดเวลาด้วยการพูดแทนการพิมพ์ ซึ่งช่วยให้ผู้ใช้สามารถสื่อสารกับอุปกรณ์ของตนได้โดยใช้ความพยายามน้อยลงและทำให้อุปกรณ์เทคโนโลยีเข้าถึงได้ง่ายขึ้นและใช้งานง่ายขึ้น
คำนวณ MFCC จากสัญญาณเสียง
ไลบรารี Python SpeechPy ได้ให้การสนับสนุนอย่างเต็มที่สำหรับการประมวลผลคุณลักษณะ MFCC จากสัญญาณเสียงภายในแอปพลิเคชันของตนเอง ไลบรารีได้ให้การสนับสนุนคุณลักษณะ MFCC ที่สำคัญหลายประการ เช่น ความถี่ในการสุ่มตัวอย่างของสัญญาณ ความยาวของแต่ละเฟรมในหน่วยวินาที ขั้นตอนระหว่างเฟรมที่ต่อเนื่องกันในหน่วยวินาที, ใช้ตัวกรองจากช่องตัวกรอง, จำนวนจุด FFT, ขอบแบนด์ต่ำสุดของตัวกรองเมล , ขอบแบนด์สูงสุดของฟิลเตอร์ mel, จำนวนสัมประสิทธิ์เซพสตรอล และอื่นๆ
แยกเสียงโดยใช้ตัวเข้ารหัสอัตโนมัติ
ไลบรารี Python โอเพ่นซอร์ส SpeechPy ช่วยให้โปรแกรมเมอร์คอมพิวเตอร์ดึงข้อมูลเสียงโดยใช้โค้ด Python Autoencoder เป็นเทคนิคการเรียนรู้ที่มีประสิทธิภาพมากสำหรับโครงข่ายประสาทเทียมที่เรียนรู้การแสดงข้อมูลอย่างมีประสิทธิภาพ เครือข่าย Autoencoder เรียนรู้จากกันและกันถึงวิธีบีบอัดข้อมูลจากเลเยอร์อินพุตให้เป็นโค้ดที่สั้นกว่า จากนั้นคลายการบีบอัดโค้ดนั้นให้อยู่ในรูปแบบใดก็ตามที่ตรงกับอินพุตดั้งเดิมมากที่สุด