Cepstral Mean Normalization


15

ใครช่วยอธิบายเกี่ยวกับการทำให้ค่าเฉลี่ยของเซพสทรัลเป็นมาตรฐานได้อย่างไรสมบัติความเท่าเทียมของการบิดมีผลต่อเรื่องนี้อย่างไร จะต้องทำ CMN ในการจดจำลำโพงแบบ MFCC หรือไม่? ทำไมคุณสมบัติของ convolution จึงเป็นความต้องการพื้นฐานของ MFCC?

ฉันยังใหม่กับการประมวลผลสัญญาณนี้มาก กรุณาช่วย


สามารถโดยไม่ใช้ตัวกรองธนาคารการแปลงความถี่โดยตรงเป็น melscale จะทำงานในกระบวนการ MFCC ได้หรือไม่
สีม่วง

คำตอบ:


18

เพียงเพื่อให้สิ่งที่ชัดเจน - ทรัพย์สินนี้ไม่ได้เป็นพื้นฐานแต่สำคัญ มันเป็นความแตกต่างพื้นฐานเมื่อพูดถึงการใช้ DCT แทน DFT สำหรับการคำนวณสเปกตรัม

ทำไมเราถึงทำ Cepstral Mean Normalisation

ในการจดจำเสียงผู้พูดเราต้องการลบเอฟเฟกต์ช่องสัญญาณใด ๆ หากสัญญาณอินพุทคือและการตอบสนองต่อแรงกระตุ้นของช่องสัญญาณจะถูกกำหนดโดยสัญญาณที่บันทึกไว้คือการแปลงเชิงเส้นของทั้งคู่:h [ n ]x[n]ชั่วโมง[n]

Y[n]=x[n]ชั่วโมง[n]

โดยการแปลงฟูริเยร์เราจะได้รับ:

Y[]=X[]H[]

เนื่องจากคุณสมบัติความเท่ากันของการคูณการบิดของ FT - นั่นคือเหตุผลที่มันเป็นคุณสมบัติที่สำคัญของ FFT ในขั้นตอนนี้

ขั้นตอนถัดไปในการคำนวณ cepstrum คือการหาลอการิทึมของสเปกตรัม:

Y[Q]=เข้าสู่ระบบY[]=เข้าสู่ระบบ(X[]H[])=X[Q]+H[Q]

เนื่องจาก:บันทึกข เห็นได้ชัดว่าเป็นquefrency ในฐานะที่เป็นหนึ่งอาจสังเกตเห็นโดยการ cepstrum ของ convolution ในโดเมนเวลาเราท้ายด้วยการเพิ่มในโดเมน cepstral (quefrency)qเข้าสู่ระบบ(a)=เข้าสู่ระบบa+เข้าสู่ระบบQ

Cepstral Mean Normalisation คืออะไร

ตอนนี้เรารู้แล้วว่าในเซปสตรัลโดเมนการบิดเบือนทางโวหารใด ๆ จะถูกแทนด้วยการเติม สมมติว่าพวกเขาทั้งหมดอยู่กับที่ (ซึ่งเป็นข้อสันนิษฐานที่แข็งแกร่งในเรื่องของเสียงพูดและการตอบสนองของช่องไม่เปลี่ยนแปลง) และส่วนที่อยู่นิ่งของการพูดนั้นไม่มีความสำคัญ เราสามารถสังเกตได้ว่าสำหรับทุกเฟรมที่แท้จริงคือ:

Yผม[Q]=H[Q]+Xผม[Q]

ด้วยการหาค่าเฉลี่ยเหนือเฟรมทั้งหมดที่เราได้รับ

1ยังไม่มีข้อความΣผมYผม[Q]=H[Q]+1ยังไม่มีข้อความΣผมXผม[Q]

การกำหนดความแตกต่าง:

Rผม[Q]=Yผม[Q]-1ยังไม่มีข้อความΣJYJ[Q]=H[Q]+Xผม[Q]-(H[Q]+1ยังไม่มีข้อความΣJXJ[Q])=Xผม[Q]-1ยังไม่มีข้อความΣJXJ[Q]

เราจบลงด้วยสัญญาณของเราที่มีการบิดเบือนช่องทางออก ใส่สมการข้างต้นทั้งหมดเป็นภาษาอังกฤษง่าย ๆ :

  • คำนวณเซพสตรัม
  • ลบค่าเฉลี่ยจากค่าสัมประสิทธิ์แต่ละค่า
  • เลือกที่จะหารด้วยความแปรปรวนเพื่อดำเนินการการปรับค่าเฉลี่ยของ Cepstral แทนการลบ

Cepstral หมายถึงการทำ Normalisation มีความจำเป็นหรือไม่?

มันไม่ได้บังคับโดยเฉพาะอย่างยิ่งเมื่อคุณพยายามจดจำผู้พูดคนหนึ่งในสภาพแวดล้อมเดียว ในความเป็นจริงมันสามารถทำให้ผลลัพธ์ของคุณแย่ลงเนื่องจากมีแนวโน้มที่จะเกิดข้อผิดพลาดเนื่องจากเสียงรบกวนเพิ่มเติม:

Y[n]=x[n]ชั่วโมง[n]+W[n]

Y[]=X[]H[]+W[]

เข้าสู่ระบบY[]=เข้าสู่ระบบ[X[](H[]+W[]X[])]=เข้าสู่ระบบX[]+เข้าสู่ระบบ(H[]+W[]X[])

ในสภาพ SNR ที่ไม่เหมาะสมคำที่ทำเครื่องหมายไว้สามารถแซงการประเมิน

แม้ว่าเมื่อดำเนินการกับ CMS แล้วโดยปกติคุณจะได้รับเปอร์เซ็นต์พิเศษเพียงเล็กน้อย หากคุณเพิ่มประสิทธิภาพที่ได้รับจากอนุพันธ์ของค่าสัมประสิทธิ์คุณจะได้รับอัตราการรู้จำของคุณเพิ่มขึ้นอย่างแท้จริง การตัดสินใจขั้นสุดท้ายขึ้นอยู่กับคุณโดยเฉพาะอย่างยิ่งว่ามีวิธีการอื่นอีกมากมายที่ใช้สำหรับการปรับปรุงระบบรู้จำเสียง


@mun: ดีใจที่ได้ช่วย ทำไมไม่ทำเครื่องหมายคำตอบสำหรับคำถามของคุณว่ายอมรับแล้วคุณสามารถลบข้อ จำกัด ผู้ใช้ใหม่ได้หรือไม่
jojek

@mun: ยินดีด้วย! ตอนนี้คุณโพสต์ลิงก์เพิ่มเติมโหวตคำถามและคำตอบ + โพสต์ตั้งค่าสถานะ
jojek

ขอบคุณ @jojek .. ฉันยังใหม่กับสิ่งเหล่านี้ทั้งหมด แต่ดีใจที่ฉันได้รับการแก้ไขปัญหาของฉัน
mun

@mun: ถ้าอย่างนั้นฉันขอแนะนำให้คุณทัวร์
jojek

ในคำตอบสุดท้ายฉันไม่สามารถรับ "เพิ่มไปที่ประสิทธิภาพการทำงานที่ได้รับจากอนุพันธ์ของค่าสัมประสิทธิ์" ที่จริงหมายถึง คุณช่วยอธิบายง่ายๆได้ไหม? ขอบคุณมาก
Shuai Wang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.