ช่วยในการคำนวณ / ทำความเข้าใจเกี่ยวกับ MFCCs: ค่าสัมประสิทธิ์ของ Mel-Frequency
ฉันกำลังอ่านบิตและชิ้นส่วนออนไลน์ แต่ฉันไม่สามารถรวมมันเข้าด้วยกันได้ ฉันมีความรู้พื้นฐานเกี่ยวกับสัญญาณ / สิ่ง DSP ซึ่งน่าจะเพียงพอสำหรับสิ่งนี้ ในที่สุดฉันสนใจที่จะเขียนอัลกอริทึมนี้ใน Java แต่ฉันยังไม่เข้าใจมันอย่างสมบูรณ์ซึ่งเป็นสาเหตุที่ฉันมาที่นี่ (นับเป็นคณิตศาสตร์ใช่ไหม) นี่คือวิธีที่ฉันคิดว่ามันทำงานร่วมกับช่องว่างในความรู้ของฉัน เริ่มต้นด้วยตัวอย่างเสียงพูดของคุณพูดไฟล์. WAV ที่คุณสามารถอ่านเป็นอาร์เรย์ได้ เรียกอาร์เรย์นี้ว่าโดยที่nมีช่วงตั้งแต่0 , 1 , … , N - 1 ( ตัวอย่างNดังนั้น) ค่าที่สอดคล้องกับความเข้มของเสียงที่ฉันเดา - แอมพลิจูดx[n]x[n]x[n]nnn0,1,…,N−10,1,…,N−10, 1, \ldots ,N-1NNN แยกสัญญาณเสียงออกเป็น "เฟรม" ที่แตกต่างกัน 10ms หรือมากกว่านั้นเมื่อคุณถือว่าสัญญาณเสียงพูดคือ "นิ่ง" นี่คือรูปแบบของการหาปริมาณ ดังนั้นหากอัตราตัวอย่างของคุณเป็น 44.1KHz, 10ms เท่ากับ 441 ตัวอย่างหรือค่าของ ]x[n]x[n]x[n] ทำการแปลงฟูริเยร์ (FFT เพื่อประโยชน์ในการคำนวณ) ทีนี้ทำสิ่งนี้กับสัญญาณทั้งหมดหรือในแต่ละเฟรมที่แยกกันของ …