หนึ่งในโครงการสุดสัปดาห์ของฉันได้นำฉันเข้าสู่น่านน้ำลึกของการประมวลผลสัญญาณ เช่นเดียวกับโครงการรหัสของฉันทั้งหมดที่ต้องใช้เลขคณิตหนัก ๆ ฉันมีความสุขมากกว่าที่คนจรจัดจะแก้ปัญหาแม้จะไม่มีพื้นฐานทางทฤษฎี แต่ในกรณีนี้ฉันไม่มีเลยและรักคำแนะนำเกี่ยวกับปัญหาของฉัน คือ: ฉันพยายามที่จะคิดออกว่าเมื่อผู้ชมสดหัวเราะระหว่างรายการโทรทัศน์
ฉันใช้เวลาอ่านบทความเกี่ยวกับวิธีการเรียนรู้ของเครื่องในการตรวจจับเสียงหัวเราะ แต่ก็รู้ว่ามันเป็นเรื่องเกี่ยวกับการตรวจจับเสียงหัวเราะของแต่ละคน สองร้อยคนที่หัวเราะพร้อมกันนั้นจะมีคุณสมบัติทางเสียงที่แตกต่างกันมากและสัญชาตญาณของฉันก็คือพวกเขาควรจะแยกแยะได้ด้วยเทคนิคการยั่วยุมากกว่าเครือข่ายประสาท ฉันอาจจะผิดอย่างสมบูรณ์ แต่! จะขอบคุณความคิดในเรื่อง
นี่คือสิ่งที่ฉันได้พยายาม: ฉันตัดข้อความที่ตัดตอนมาห้านาทีจากตอนล่าสุดของ Saturday Night Live เป็นสองวินาที ฉันจึงระบุว่า "หัวเราะ" หรือ "ไม่หัวเราะ" เหล่านี้ ด้วยการใช้ตัวแยกฟีเจอร์ MFCC ของ Librosa ฉันใช้ K-หมายถึงการรวมกลุ่มกับข้อมูลและได้ผลลัพธ์ที่ดี - ทั้งสองกลุ่มทำแผนที่กับป้ายกำกับของฉันอย่างเรียบร้อย แต่เมื่อฉันพยายามวนซ้ำไฟล์ที่ยาวขึ้นการคาดคะเนไม่ได้เก็บน้ำไว้
สิ่งที่ฉันจะลองตอนนี้: ฉันจะต้องแม่นยำมากขึ้นเกี่ยวกับการสร้างคลิปเสียงหัวเราะเหล่านี้ แทนที่จะแยกและแยกคนตาบอดฉันจะแยกพวกมันออกด้วยตัวเองเพื่อที่ว่าจะไม่มีการสนทนาใดที่ทำให้เกิดมลพิษ จากนั้นฉันจะแบ่งพวกมันออกเป็นคลิปควอเตอร์ที่สองคำนวณ MFCC ของสิ่งเหล่านี้และใช้มันเพื่อฝึกฝน SVM
คำถามของฉัน ณ จุดนี้:
มีเหตุผลอย่างนี้ไหม?
สถิติช่วยได้ที่นี่ไหม ฉันเลื่อนไปมาในโหมดดูสเปคโทรแกรมของ Audacity และฉันสามารถเห็นได้อย่างชัดเจนว่าเกิดขึ้นที่ใด ในสเปคโตรแกรมพลังงานการพูดมีลักษณะโดดเด่นมาก "มีรอยย่น" ในทางกลับกันเสียงหัวเราะนั้นครอบคลุมความถี่ในวงกว้างค่อนข้างเท่ากันเกือบจะเหมือนกับการแจกแจงแบบปกติ มันเป็นไปได้ที่จะแยกความแตกต่างของเสียงปรบมือจากเสียงหัวเราะด้วยชุดความถี่ที่ จำกัด ยิ่งกว่าที่แสดงในเสียงปรบมือ นั่นทำให้ฉันคิดถึงความเบี่ยงเบนมาตรฐาน ฉันเห็นว่ามีบางสิ่งที่เรียกว่าการทดสอบ Kolmogorov – Smirnov ซึ่งอาจเป็นประโยชน์ที่นี่ (คุณสามารถเห็นเสียงหัวเราะในภาพด้านบนเป็นกำแพงสีส้มชน 45% ของทาง)
สเปคตรัมเชิงเส้นดูเหมือนว่าจะแสดงว่าเสียงหัวเราะนั้นมีพลังมากขึ้นในความถี่ที่ต่ำกว่าและหายไปสู่ความถี่ที่สูงขึ้น - นี่หมายความว่ามันมีคุณสมบัติเป็นเสียงสีชมพูหรือไม่? ถ้าเป็นเช่นนั้นนั่นอาจเป็นปัญหาหลักได้หรือไม่
ฉันขอโทษถ้าฉันใช้ศัพท์แสงในทางที่ผิดฉันอยู่ในวิกิพีเดียไม่น้อยสำหรับเรื่องนี้และจะไม่แปลกใจถ้าฉันรู้สึกสับสน