คำถามติดแท็ก sound-recognition

4
การแยกคุณลักษณะสำหรับการจำแนกเสียง
ฉันพยายามที่จะแยกคุณสมบัติออกจากไฟล์เสียงและจำแนกเสียงว่าเป็นของประเภทใดหมวดหนึ่ง (เช่น: เปลือกสุนัขเครื่องยนต์ยานพาหนะ ฯลฯ ) ฉันต้องการความชัดเจนในสิ่งต่อไปนี้: 1) สิ่งนี้เป็นไปได้หรือไม่? มีโปรแกรมที่สามารถรู้จำเสียงพูดและแยกแยะความแตกต่างระหว่างชนิดเปลือกสุนัข แต่เป็นไปได้หรือไม่ที่จะมีโปรแกรมที่สามารถรับตัวอย่างเสียงและเพียงแค่พูดว่าเป็นเสียงแบบใด (สมมติว่ามีฐานข้อมูลที่มีตัวอย่างเสียงจำนวนมากที่จะอ้างอิง) ตัวอย่างเสียงอินพุตอาจมีเสียงดังเล็กน้อย (อินพุตไมโครโฟน) 2) ฉันคิดว่าขั้นตอนแรกคือการแยกคุณสมบัติเสียง นี้บทความแสดงให้เห็นการแยก MFCCs และการให้อาหารพวกเขาไปยังขั้นตอนวิธีการเรียนรู้ของเครื่อง MFCC เพียงพอหรือไม่ มีคุณสมบัติอื่น ๆ ที่ใช้โดยทั่วไปสำหรับการจำแนกเสียงหรือไม่ ขอขอบคุณสำหรับเวลาของคุณ.

2
แทร็กหัวเราะเตะเมื่อไหร่?
หนึ่งในโครงการสุดสัปดาห์ของฉันได้นำฉันเข้าสู่น่านน้ำลึกของการประมวลผลสัญญาณ เช่นเดียวกับโครงการรหัสของฉันทั้งหมดที่ต้องใช้เลขคณิตหนัก ๆ ฉันมีความสุขมากกว่าที่คนจรจัดจะแก้ปัญหาแม้จะไม่มีพื้นฐานทางทฤษฎี แต่ในกรณีนี้ฉันไม่มีเลยและรักคำแนะนำเกี่ยวกับปัญหาของฉัน คือ: ฉันพยายามที่จะคิดออกว่าเมื่อผู้ชมสดหัวเราะระหว่างรายการโทรทัศน์ ฉันใช้เวลาอ่านบทความเกี่ยวกับวิธีการเรียนรู้ของเครื่องในการตรวจจับเสียงหัวเราะ แต่ก็รู้ว่ามันเป็นเรื่องเกี่ยวกับการตรวจจับเสียงหัวเราะของแต่ละคน สองร้อยคนที่หัวเราะพร้อมกันนั้นจะมีคุณสมบัติทางเสียงที่แตกต่างกันมากและสัญชาตญาณของฉันก็คือพวกเขาควรจะแยกแยะได้ด้วยเทคนิคการยั่วยุมากกว่าเครือข่ายประสาท ฉันอาจจะผิดอย่างสมบูรณ์ แต่! จะขอบคุณความคิดในเรื่อง นี่คือสิ่งที่ฉันได้พยายาม: ฉันตัดข้อความที่ตัดตอนมาห้านาทีจากตอนล่าสุดของ Saturday Night Live เป็นสองวินาที ฉันจึงระบุว่า "หัวเราะ" หรือ "ไม่หัวเราะ" เหล่านี้ ด้วยการใช้ตัวแยกฟีเจอร์ MFCC ของ Librosa ฉันใช้ K-หมายถึงการรวมกลุ่มกับข้อมูลและได้ผลลัพธ์ที่ดี - ทั้งสองกลุ่มทำแผนที่กับป้ายกำกับของฉันอย่างเรียบร้อย แต่เมื่อฉันพยายามวนซ้ำไฟล์ที่ยาวขึ้นการคาดคะเนไม่ได้เก็บน้ำไว้ สิ่งที่ฉันจะลองตอนนี้: ฉันจะต้องแม่นยำมากขึ้นเกี่ยวกับการสร้างคลิปเสียงหัวเราะเหล่านี้ แทนที่จะแยกและแยกคนตาบอดฉันจะแยกพวกมันออกด้วยตัวเองเพื่อที่ว่าจะไม่มีการสนทนาใดที่ทำให้เกิดมลพิษ จากนั้นฉันจะแบ่งพวกมันออกเป็นคลิปควอเตอร์ที่สองคำนวณ MFCC ของสิ่งเหล่านี้และใช้มันเพื่อฝึกฝน SVM คำถามของฉัน ณ จุดนี้: มีเหตุผลอย่างนี้ไหม? สถิติช่วยได้ที่นี่ไหม ฉันเลื่อนไปมาในโหมดดูสเปคโทรแกรมของ Audacity และฉันสามารถเห็นได้อย่างชัดเจนว่าเกิดขึ้นที่ใด ในสเปคโตรแกรมพลังงานการพูดมีลักษณะโดดเด่นมาก "มีรอยย่น" …

2
การตรวจจับทิศทางของเสียงโดยใช้ไมโครโฟนหลายตัว
ก่อนอื่นฉันได้เห็นหัวข้อที่คล้ายกัน แต่มันต่างไปเล็กน้อยกับสิ่งที่ฉันพยายามทำ ฉันกำลังสร้างหุ่นยนต์ซึ่งจะติดตามบุคคลที่เรียกมัน ความคิดของฉันคือการใช้ไมโครโฟน 3 หรือ 4 ตัว - เช่นในการจัดเรียงต่อไปนี้เพื่อกำหนดทิศทางที่หุ่นยนต์ถูกเรียก: โดยที่ S คือต้นกำเนิด A, B และ C เป็นไมโครโฟน แนวคิดคือการคำนวณความสัมพันธ์เฟสของสัญญาณที่บันทึกจากคู่ AB, AC, BC และจากนั้นสร้างเวกเตอร์ที่จะชี้ไปที่แหล่งที่มาโดยใช้สมการชนิดหนึ่ง ระบบไม่จำเป็นต้องทำงานในเวลาจริงเพราะมันจะเปิดใช้งานเสียง - สัญญาณจากไมโครโฟนทั้งหมดจะถูกบันทึกพร้อมกันเสียงจะถูกสุ่มจากไมโครโฟนเพียงตัวเดียวและถ้ามันเหมาะกับลายเซ็นเสียงความสัมพันธ์ของเฟสจะถูกคำนวณจาก เศษส่วนสุดท้ายของวินาทีเพื่อคำนวณทิศทาง ฉันทราบว่านี่อาจไม่ทำงานเช่นกันเช่นเมื่อมีการเรียกหุ่นยนต์จากห้องอื่นหรือเมื่อมีการสะท้อนหลายครั้ง นี่เป็นเพียงความคิดที่ฉันมี แต่ฉันไม่เคยลองอะไรแบบนี้และฉันมีคำถามหลายข้อก่อนที่ฉันจะสร้างฮาร์ดแวร์จริงที่จะทำงาน: นี่เป็นวิธีทั่วไปในการทำสิ่งนี้หรือไม่? (เช่นใช้ในโทรศัพท์เพื่อตัดเสียงรบกวน) มีวิธีการอื่นที่เป็นไปได้อย่างไร สามารถคำนวณความสัมพันธ์ของเฟสระหว่าง 3 แหล่งพร้อมกันได้หรือไม่? (เช่นเพื่อเร่งการคำนวณ) อัตราตัวอย่าง 22khz และความลึก 12 บิตเพียงพอสำหรับระบบนี้หรือไม่ ฉันกังวลเป็นพิเศษเกี่ยวกับความลึกของบิต ควรวางไมโครโฟนในหลอดแยกเพื่อปรับปรุงการแยกหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.