คุณสามารถนึกถึง DCT ว่าเป็นขั้นตอนการบีบอัด โดยทั่วไปกับ MFCCs คุณจะใช้ DCT แล้วเก็บค่าสัมประสิทธิ์เพียงไม่กี่ครั้งแรกเท่านั้น นี่เป็นเหตุผลเดียวกันที่ DCT ใช้ในการบีบอัด JPEG DCT ได้รับเลือกเนื่องจากเงื่อนไขขอบเขตทำงานได้ดีกับสัญญาณประเภทนี้
ลองเปรียบเทียบ DCT กับการแปลงฟูริเยร์กัน การแปลงฟูริเยร์นั้นสร้างจากไซนัสที่มีจำนวนเต็ม ซึ่งหมายความว่าฟังก์ชันพื้นฐานของฟูเรียร์ทั้งหมดเริ่มต้นและสิ้นสุดที่ค่าเดียวกัน - พวกเขาทำงานได้ไม่ดีในการเป็นตัวแทนของสัญญาณที่เริ่มต้นและสิ้นสุดที่ค่าที่ต่างกัน โปรดจำไว้ว่าการแปลงฟูริเยร์ถือว่าส่วนขยายเป็นระยะ: ถ้าคุณจินตนาการว่าสัญญาณของคุณบนกระดาษหนึ่งแผ่นการแปลงฟูริเยร์ต้องการม้วนแผ่นนั้นเป็นทรงกระบอกเพื่อให้ด้านซ้ายและด้านขวาพบกัน
ลองนึกถึงสเปกตรัมที่มีรูปร่างเหมือนเส้นที่มีความชันเป็นลบ (ซึ่งเป็นเรื่องปกติ) การแปลงฟูริเยร์จะต้องใช้สัมประสิทธิ์ที่แตกต่างกันมากมายเพื่อให้พอดีกับรูปร่างนี้ ในทางกลับกัน DCT มีค่า cosines ที่มีจำนวนครึ่งจำนวนเต็ม ยกตัวอย่างเช่นมีฟังก์ชั่นพื้นฐาน DCT ที่มีลักษณะเหมือนรางรถไฟที่มีความชันเป็นลบ มันไม่ถือว่าการขยายรอบระยะเวลา (แทนการขยายที่เท่ากัน) ดังนั้นมันจะทำงานได้ดีขึ้นของรูปร่างที่เหมาะสม
ดังนั้นมารวมกัน เมื่อคุณคำนวณสเปกตรัม Mel-frequency คุณจะได้เป็นตัวแทนของสเปกตรัมที่ไวต่อการได้ยินของมนุษย์ บางแง่มุมของรูปร่างนี้มีความเกี่ยวข้องมากกว่าด้านอื่น โดยปกติแล้วรูปร่างของสเปกตรัมที่ครอบคลุมมากขึ้นนั้นมีความสำคัญมากกว่ารายละเอียดที่มีเสียงดังในสเปกตรัม คุณสามารถจินตนาการถึงการวาดเส้นที่ราบเรียบเพื่อติดตามรูปร่างสเปกตรัมและเส้นที่ราบเรียบที่คุณวาดอาจบอกคุณเกี่ยวกับสัญญาณมากพอ
เมื่อคุณใช้ DCT และละทิ้งค่าสัมประสิทธิ์ที่สูงขึ้นคุณจะได้รูปทรงสเปกตรัมนี้และรักษาเฉพาะส่วนที่สำคัญกว่าสำหรับการแสดงรูปร่างที่ราบรื่นนี้เท่านั้น หากคุณใช้การแปลงฟูริเยร์มันจะไม่ทำงานที่ดีในการเก็บข้อมูลสำคัญในค่าสัมประสิทธิ์ต่ำ
ถ้าคุณคิดว่าการป้อน MFCCs เป็นคุณสมบัติของอัลกอริทึมการเรียนรู้ของเครื่องสัมประสิทธิ์ลำดับล่างเหล่านี้จะทำให้คุณสมบัติที่ดีเนื่องจากมันแสดงถึงลักษณะที่เรียบง่ายของรูปร่างสเปกตรัมในขณะที่ค่าสัมประสิทธิ์ลำดับสูงกว่าที่คุณละ และไม่มีความสำคัญในการฝึกฝน นอกจากนี้การฝึกฝนเกี่ยวกับขนาดสเปกตรัมของ Mel เองอาจจะไม่ดีนักเนื่องจากขนาดของคลื่นที่ความถี่แตกต่างกันนั้นมีความสำคัญน้อยกว่ารูปร่างทั่วไปของสเปกตรัม