เพียงเพื่อให้สิ่งที่ชัดเจน - ทรัพย์สินนี้ไม่ได้เป็นพื้นฐานแต่สำคัญ มันเป็นความแตกต่างพื้นฐานเมื่อพูดถึงการใช้ DCT แทน DFT สำหรับการคำนวณสเปกตรัม
ทำไมเราถึงทำ Cepstral Mean Normalisation
ในการจดจำเสียงผู้พูดเราต้องการลบเอฟเฟกต์ช่องสัญญาณใด ๆ หากสัญญาณอินพุทคือและการตอบสนองต่อแรงกระตุ้นของช่องสัญญาณจะถูกกำหนดโดยสัญญาณที่บันทึกไว้คือการแปลงเชิงเส้นของทั้งคู่:h [ n ]x [ n ]h [ n ]
Y[ n ] = x [ n ] ⋆ h [ n ]
โดยการแปลงฟูริเยร์เราจะได้รับ:
Y[ f] = X[ f] ⋅ H[ f]
เนื่องจากคุณสมบัติความเท่ากันของการคูณการบิดของ FT - นั่นคือเหตุผลที่มันเป็นคุณสมบัติที่สำคัญของ FFT ในขั้นตอนนี้
ขั้นตอนถัดไปในการคำนวณ cepstrum คือการหาลอการิทึมของสเปกตรัม:
Y[ q] = บันทึกY[ f] = บันทึก( X[ f] ⋅ H[ f] ) = X[ q] + H[ q]
เนื่องจาก:บันทึกข เห็นได้ชัดว่าเป็นquefrency ในฐานะที่เป็นหนึ่งอาจสังเกตเห็นโดยการ cepstrum ของ convolution ในโดเมนเวลาเราท้ายด้วยการเพิ่มในโดเมน cepstral (quefrency)qเข้าสู่ระบบ( a b ) = บันทึกa + บันทึกขQ
Cepstral Mean Normalisation คืออะไร
ตอนนี้เรารู้แล้วว่าในเซปสตรัลโดเมนการบิดเบือนทางโวหารใด ๆ จะถูกแทนด้วยการเติม สมมติว่าพวกเขาทั้งหมดอยู่กับที่ (ซึ่งเป็นข้อสันนิษฐานที่แข็งแกร่งในเรื่องของเสียงพูดและการตอบสนองของช่องไม่เปลี่ยนแปลง) และส่วนที่อยู่นิ่งของการพูดนั้นไม่มีความสำคัญ เราสามารถสังเกตได้ว่าสำหรับทุกเฟรมที่แท้จริงคือ:
Yผม[ q] = H[ q] + Xผม[ q]
ด้วยการหาค่าเฉลี่ยเหนือเฟรมทั้งหมดที่เราได้รับ
1ยังไม่มีข้อความΣผมYผม[ q] = H[ q] + 1ยังไม่มีข้อความΣผมXผม[ q]
การกำหนดความแตกต่าง:
Rผม[ q]= Yผม[ q] - 1ยังไม่มีข้อความΣJYJ[ q]= H[ q] + Xผม[ q] - ( H[ q] + 1ยังไม่มีข้อความΣJXJ[ q] )= Xผม[ q] - 1ยังไม่มีข้อความΣJXJ[ q]
เราจบลงด้วยสัญญาณของเราที่มีการบิดเบือนช่องทางออก ใส่สมการข้างต้นทั้งหมดเป็นภาษาอังกฤษง่าย ๆ :
- คำนวณเซพสตรัม
- ลบค่าเฉลี่ยจากค่าสัมประสิทธิ์แต่ละค่า
- เลือกที่จะหารด้วยความแปรปรวนเพื่อดำเนินการการปรับค่าเฉลี่ยของ Cepstral แทนการลบ
Cepstral หมายถึงการทำ Normalisation มีความจำเป็นหรือไม่?
มันไม่ได้บังคับโดยเฉพาะอย่างยิ่งเมื่อคุณพยายามจดจำผู้พูดคนหนึ่งในสภาพแวดล้อมเดียว ในความเป็นจริงมันสามารถทำให้ผลลัพธ์ของคุณแย่ลงเนื่องจากมีแนวโน้มที่จะเกิดข้อผิดพลาดเนื่องจากเสียงรบกวนเพิ่มเติม:
Y[ n ] = x [ n ] ⋆ h [ n ] + w [ n ]
Y[f] =X[f] ⋅H[f] + W[f]
เข้าสู่ระบบY[f] = บันทึก[ X[ f] ( H[ f] + W[ f]X[ f]) ] =บันทึกX[ f] + บันทึก( H[ f] + W[ f]X[ f])
ในสภาพ SNR ที่ไม่เหมาะสมคำที่ทำเครื่องหมายไว้สามารถแซงการประเมิน
แม้ว่าเมื่อดำเนินการกับ CMS แล้วโดยปกติคุณจะได้รับเปอร์เซ็นต์พิเศษเพียงเล็กน้อย หากคุณเพิ่มประสิทธิภาพที่ได้รับจากอนุพันธ์ของค่าสัมประสิทธิ์คุณจะได้รับอัตราการรู้จำของคุณเพิ่มขึ้นอย่างแท้จริง การตัดสินใจขั้นสุดท้ายขึ้นอยู่กับคุณโดยเฉพาะอย่างยิ่งว่ามีวิธีการอื่นอีกมากมายที่ใช้สำหรับการปรับปรุงระบบรู้จำเสียง