เหตุผลที่คุณเห็นการแปลงฟูริเยร์นำมาใช้สองครั้งในกระบวนการแยกคุณลักษณะคือคุณลักษณะนั้นขึ้นอยู่กับแนวคิดที่เรียกว่า cepstrum Cepstrum เป็นการเล่นบนคำว่าสเปกตรัม - โดยหลักแล้วความคิดคือการแปลงสัญญาณเป็นโดเมนความถี่โดยการแปลงฟูริเยร์แล้วทำการแปลงอีกครั้งราวกับว่าคลื่นความถี่เป็นสัญญาณ
ในขณะที่คลื่นความถี่อธิบายความกว้างและเฟสของแต่ละย่านความถี่ cepstrum จะอธิบายลักษณะที่แตกต่างกันระหว่างย่านความถี่ คุณสมบัติที่ได้จาก cepstrum นั้นสามารถอธิบายการพูดได้ดีกว่าคุณสมบัติที่ถ่ายโดยตรงจากสเปกตรัมความถี่
มีคำจำกัดความที่แตกต่างกันสองสามข้อ แต่เดิมการแปลงเซฟท์ตัมถูกกำหนดให้เป็นฟูริเยร์การแปลง -> ลอการิทึมแบบซับซ้อน -> การแปลงฟูริเยร์ [1] อีกนิยามคือการแปลงฟูริเยร์ -> ลอการิทึมแบบซับซ้อน -> การแปลงฟูริเยร์ผกผัน [2] แรงจูงใจสำหรับคำจำกัดความหลังคือความสามารถในการแยกสัญญาณที่มีการปรับ (คำพูดของมนุษย์มักจะถูกสร้างแบบจำลองเช่นการบิดของการกระตุ้นและเสียงพูด)
ทางเลือกที่ได้รับความนิยมที่พบว่าทำงานได้ดีในระบบรู้จำเสียงพูดคือใช้ตัวกรองแบบไม่เป็นเชิงเส้นในโดเมนความถี่ (ความหมายที่คุณต้องการอ้างอิง) [3] อัลกอริทึมเฉพาะถูกกำหนดเป็นการแปลงฟูริเยร์ -> กำลังสอง -> ธนาคารกรองเมล -> ลอการิทึมจริง -> การแปลงโคไซน์ไม่ต่อเนื่อง
ที่นี่สามารถเลือก DCT เป็นการแปลงที่สองได้เนื่องจากสำหรับอินพุตที่มีมูลค่าจริงส่วนที่แท้จริงของ DFT นั้นเป็น DCT ชนิดหนึ่ง สาเหตุที่เป็นที่ต้องการ DCT คือการส่งออกที่มีความเกี่ยวข้องโดยประมาณ คุณลักษณะแบบตกแต่งได้อย่างมีประสิทธิภาพเช่นการกระจายแบบเกาส์กับเมทริกซ์ความแปรปรวนร่วมแนวทแยง
[1] Bogert, B. , Healy, M. , และ Tukey, J. (1963) Alanysis Quefrency ของ Time Series สำหรับ Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum และแคร็ก Saphe ในการประชุมวิชาการเรื่องการวิเคราะห์อนุกรมเวลา 209-243
[2] Oppenheim, A. และ Schafer, R. (1968) การวิเคราะห์เสียงพูด Homomorphic ในธุรกรรม IEEE เกี่ยวกับเสียงและอิเล็กโทรด 221-226
[3] Davis, S. , และ Mermelstein, P. (1980) การเปรียบเทียบการแทนค่าพารามิเตอร์สำหรับการรู้จำคำพยางค์เดียวในประโยคที่พูดอย่างต่อเนื่อง. ในธุรกรรม IEEE เกี่ยวกับอะคูสติกการประมวลผลคำพูดและสัญญาณ 28, p. 357-366