คำถามติดแท็ก mfcc

2
ฉันจะตีความขั้นตอน DCT ในกระบวนการแยก MFCC ได้อย่างไร
ในงานการประมวลผลเสียงมากที่สุดคนหนึ่งของแปลงที่ใช้มากที่สุดคือMFCC (เมลความถี่ค่าสัมประสิทธิ์ Cepstral) ฉันส่วนใหญ่รู้คณิตศาสตร์ที่อยู่เบื้องหลัง MFCC: ฉันเข้าใจทั้งขั้นตอนตัวกรองของธนาคารและการปรับความถี่เมล สิ่งที่ฉันไม่ได้รับคือขั้นตอน DCT (การแปลงโคไซน์ไม่ต่อเนื่อง): ฉันจะได้รับข้อมูลประเภทใดในขั้นตอนนี้ การแสดงภาพที่ดีของขั้นตอนนี้คืออะไร

1
ช่วยในการคำนวณ / ทำความเข้าใจเกี่ยวกับ MFCCs: ค่าสัมประสิทธิ์ของ Mel-Frequency
ฉันกำลังอ่านบิตและชิ้นส่วนออนไลน์ แต่ฉันไม่สามารถรวมมันเข้าด้วยกันได้ ฉันมีความรู้พื้นฐานเกี่ยวกับสัญญาณ / สิ่ง DSP ซึ่งน่าจะเพียงพอสำหรับสิ่งนี้ ในที่สุดฉันสนใจที่จะเขียนอัลกอริทึมนี้ใน Java แต่ฉันยังไม่เข้าใจมันอย่างสมบูรณ์ซึ่งเป็นสาเหตุที่ฉันมาที่นี่ (นับเป็นคณิตศาสตร์ใช่ไหม) นี่คือวิธีที่ฉันคิดว่ามันทำงานร่วมกับช่องว่างในความรู้ของฉัน เริ่มต้นด้วยตัวอย่างเสียงพูดของคุณพูดไฟล์. WAV ที่คุณสามารถอ่านเป็นอาร์เรย์ได้ เรียกอาร์เรย์นี้ว่าโดยที่nมีช่วงตั้งแต่0 , 1 , … , N - 1 ( ตัวอย่างNดังนั้น) ค่าที่สอดคล้องกับความเข้มของเสียงที่ฉันเดา - แอมพลิจูดx[n]x[n]x[n]nnn0,1,…,N−10,1,…,N−10, 1, \ldots ,N-1NNN แยกสัญญาณเสียงออกเป็น "เฟรม" ที่แตกต่างกัน 10ms หรือมากกว่านั้นเมื่อคุณถือว่าสัญญาณเสียงพูดคือ "นิ่ง" นี่คือรูปแบบของการหาปริมาณ ดังนั้นหากอัตราตัวอย่างของคุณเป็น 44.1KHz, 10ms เท่ากับ 441 ตัวอย่างหรือค่าของ ]x[n]x[n]x[n] ทำการแปลงฟูริเยร์ (FFT เพื่อประโยชน์ในการคำนวณ) ทีนี้ทำสิ่งนี้กับสัญญาณทั้งหมดหรือในแต่ละเฟรมที่แยกกันของ …

1
Cepstral Mean Normalization
ใครช่วยอธิบายเกี่ยวกับการทำให้ค่าเฉลี่ยของเซพสทรัลเป็นมาตรฐานได้อย่างไรสมบัติความเท่าเทียมของการบิดมีผลต่อเรื่องนี้อย่างไร จะต้องทำ CMN ในการจดจำลำโพงแบบ MFCC หรือไม่? ทำไมคุณสมบัติของ convolution จึงเป็นความต้องการพื้นฐานของ MFCC? ฉันยังใหม่กับการประมวลผลสัญญาณนี้มาก กรุณาช่วย
15 mfcc 

4
การแยกคุณลักษณะสำหรับการจำแนกเสียง
ฉันพยายามที่จะแยกคุณสมบัติออกจากไฟล์เสียงและจำแนกเสียงว่าเป็นของประเภทใดหมวดหนึ่ง (เช่น: เปลือกสุนัขเครื่องยนต์ยานพาหนะ ฯลฯ ) ฉันต้องการความชัดเจนในสิ่งต่อไปนี้: 1) สิ่งนี้เป็นไปได้หรือไม่? มีโปรแกรมที่สามารถรู้จำเสียงพูดและแยกแยะความแตกต่างระหว่างชนิดเปลือกสุนัข แต่เป็นไปได้หรือไม่ที่จะมีโปรแกรมที่สามารถรับตัวอย่างเสียงและเพียงแค่พูดว่าเป็นเสียงแบบใด (สมมติว่ามีฐานข้อมูลที่มีตัวอย่างเสียงจำนวนมากที่จะอ้างอิง) ตัวอย่างเสียงอินพุตอาจมีเสียงดังเล็กน้อย (อินพุตไมโครโฟน) 2) ฉันคิดว่าขั้นตอนแรกคือการแยกคุณสมบัติเสียง นี้บทความแสดงให้เห็นการแยก MFCCs และการให้อาหารพวกเขาไปยังขั้นตอนวิธีการเรียนรู้ของเครื่อง MFCC เพียงพอหรือไม่ มีคุณสมบัติอื่น ๆ ที่ใช้โดยทั่วไปสำหรับการจำแนกเสียงหรือไม่ ขอขอบคุณสำหรับเวลาของคุณ.

3
นี่เป็นการตีความที่ถูกต้องของขั้นตอน DCT ในการคำนวณ MFCC หรือไม่
นี่คือความต่อเนื่องของการอภิปรายที่นี่ ฉันจะแสดงความคิดเห็นที่นั่น แต่ฉันไม่มีตัวแทน 50 คนฉันจึงถามคำถามใหม่ นี่คือวิธีที่ฉันเข้าใจขั้นตอน DCT ในกระบวนการคำนวณ MFCC: เหตุผลที่อยู่เบื้องหลังคือการแยกสหสัมพันธ์ในขนาดบันทึกการทำงาน (จากตัวกรอง) เนื่องจากการซ้อนทับของตัวกรอง โดยพื้นฐานแล้ว DCT ทำให้การแสดงสเปกตรัมเป็นไปอย่างราบรื่นโดยขนาดของ log-spectral มันจะถูกต้องหรือไม่ที่จะบอกว่าเส้นสีน้ำเงินในภาพด้านล่างแทนสเปกตรัมที่แสดงโดยเวกเตอร์ของขนาด - บันทึกสเปกตรัมและเส้นสีแดงคือเวกเตอร์นั้นครั้งหนึ่งเคยเป็น DCT-ified?
9 mfcc  dct 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.