ฉันพยายามตรวจจับและจำแนกเสียงที่ไม่ใช่คำพูด ขณะนี้ฉันกำลังใช้สเปคตรัมกำลังเคลื่อนที่ซ้อนทับกันจากเสียงการฝึกอบรมเป็นคุณสมบัติที่ฉันกำลังมองหา
เมื่อฉันทำการวิเคราะห์ฉันแค่คำนวณจำนวนสเปคตรัมที่ทับซ้อนกันจำนวนเท่ากันดังนั้นจำนวนของฟีเจอร์จะเท่ากัน ตอนนี้ประสิทธิภาพไม่ดีมากมันสามารถตรวจจับความเงียบและไม่เงียบได้เท่านั้น
มีเทคนิคอะไรบ้างสำหรับการตรวจจับสัญญาณประเภทนี้? หนึ่งในข้อกังวลของฉันคือสำหรับเสียงที่มีความยาวต่างกันในโดเมนเวลาจะส่งผลให้ความยาวของเวกเตอร์ของคุณลักษณะต่างกันซึ่งฉันไม่สามารถใช้ตัวจําแนกแบบเดียวกันได้ฉันติดอยู่กับสิ่งนี้