การจดจำรูปแบบสำหรับข้อมูลชั่วคราว

9

ฉันพยายามตรวจจับและจำแนกเสียงที่ไม่ใช่คำพูด ขณะนี้ฉันกำลังใช้สเปคตรัมกำลังเคลื่อนที่ซ้อนทับกันจากเสียงการฝึกอบรมเป็นคุณสมบัติที่ฉันกำลังมองหา

เมื่อฉันทำการวิเคราะห์ฉันแค่คำนวณจำนวนสเปคตรัมที่ทับซ้อนกันจำนวนเท่ากันดังนั้นจำนวนของฟีเจอร์จะเท่ากัน ตอนนี้ประสิทธิภาพไม่ดีมากมันสามารถตรวจจับความเงียบและไม่เงียบได้เท่านั้น

มีเทคนิคอะไรบ้างสำหรับการตรวจจับสัญญาณประเภทนี้? หนึ่งในข้อกังวลของฉันคือสำหรับเสียงที่มีความยาวต่างกันในโดเมนเวลาจะส่งผลให้ความยาวของเวกเตอร์ของคุณลักษณะต่างกันซึ่งฉันไม่สามารถใช้ตัวจําแนกแบบเดียวกันได้ฉันติดอยู่กับสิ่งนี้

audio

— cufmo
แหล่งที่มา

3

คุณพยายามตรวจจับคำพูดเทียบกับที่ไม่ใช่คำพูดหรือมีคลาสของเสียงที่ไม่ใช่คำพูดที่คุณพยายามแยกแยะใช่หรือไม่ ฉันไม่ชัดเจนจากคำถามของคุณ

ฉันคิดว่าวิธีแรกที่เหมาะสมคือการปิดกั้นสัญญาณของคุณลงในเฟรมและคำนวณค่าสัมประสิทธิ์ Mel-Frequency Cepstral (MFCCs) เช่นเดียวกับ delta-MFCCs (ความแตกต่างระหว่าง MFCC ของเฟรมที่อยู่ติดกัน) และ delta-delta MFCCs ในเฟรมที่แยกออกเป็นสองเฟรม) นี่ไม่ใช่วิธีเดียวที่จะทำได้ แต่หากไม่มีความรู้เฉพาะเกี่ยวกับโดเมนปัญหามากขึ้นนี่อาจเป็นจุดเริ่มต้นที่ดี

เพียง googling ควรให้คุณอ้างอิงที่ดีเกี่ยวกับวิธีการคำนวณ MFCCs ถ้าคุณไม่คุ้นเคยกับพวกเขา โดยพื้นฐานแล้วคุณใช้ DFT ใช้ขนาดคำนวณพลังงานในหน้าต่างรูปสามเหลี่ยมที่สอดคล้องกับการได้ยินของมนุษย์นำ DCT ของสัมประสิทธิ์เหล่านี้เป็นขั้นตอนการบีบอัดแล้วละทิ้งสัมประสิทธิ์ลำดับสูงโดยทั่วไปจะใช้เพียงประมาณสิบสองค่าสัมประสิทธิ์แรก . ฉันมีคำอธิบายความหมายของขั้นตอน DCT ในบทความนี้: ฉันจะตีความขั้นตอน DCT ในกระบวนการแยก MFCC ได้อย่างไร

จากนั้นคุณสามารถพูดใช้ค่าสัมประสิทธิ์เหล่านี้เป็นคุณสมบัติสำหรับ SVM

— schnarf
แหล่งที่มา

2

ฉันคิดว่าคุณมักจะมองปัญหาการตรวจจับเสียงพูดซึ่งมีมานานแล้วและมีวิธีการมากมายที่จะทำสิ่งนี้ได้รับการพัฒนาโดยตอนนี้ ดูเหมือนว่าบทความนี้ตัวอย่างเช่นยังใช้เทคนิคสเปกตรัมดังนั้นคุณอาจต้องการที่จะเริ่มต้นมี การค้นหาของ Google แบบเก่าที่ดีจะส่งคืนผลลัพธ์จำนวนมากพร้อมลิงก์ไปยังเอกสารและบทความ

โดยทั่วไปมีวิธีการตรวจจับคำพูดที่แตกต่างกันสองวิธี หนึ่งช่วยให้การสันนิษฐานของอัตราส่วนการพูดต่อเสียงรบกวนที่ดี (เสียงดังกว่าเสียงรอบข้าง, เพลง, เนื้อหาที่ไม่เกี่ยวข้องอื่น ๆ ) และอื่น ๆ ที่ไม่ทำให้สมมติฐานดังกล่าวและพยายามที่จะระบุสถานะการพูดในสัญญาณที่มีเสียงดังมาก เสียง) ขึ้นอยู่กับว่าคุณกำลังพยายามทำอะไรคุณจะพบว่ากระดาษแตกต่างกันมาก บางทีหากคุณชี้แจงคำถามของคุณเล็กน้อยและอธิบายเกี่ยวกับประเภทของสัญญาณเสียงพูดที่คุณกำลังใช้งานไซต์นี้อาจช่วยได้มากขึ้น

— phonon
แหล่งที่มา