4
อะไรคือความแตกต่างระหว่างการแปลงฟูริเยร์และการแปลงโคไซน์?
ในการรู้จำเสียงส่วนหน้าส่วนใหญ่ทำการประมวลผลสัญญาณเพื่อให้สามารถดึงคุณสมบัติออกจากสตรีมเสียง การแปลงฟูริเยร์แบบไม่ต่อเนื่อง (DFT) ถูกนำมาใช้สองครั้งในกระบวนการนี้ ครั้งแรกคือหลังจากการเปิดหน้าต่าง หลังจาก Mel Binning นี้ถูกนำไปใช้และจากนั้นก็แปลงฟูเรียร์อื่น ฉันได้สังเกตเห็นว่ามันเป็นเรื่องธรรมดาในตัวรู้จำเสียงพูด (ส่วนหน้าเริ่มต้นในCMU Sphinxเป็นต้น) เพื่อใช้การแปลงแบบโคไซน์แบบแยกส่วน (DCT) แทนที่จะเป็น DFT สำหรับการดำเนินการครั้งที่สอง ความแตกต่างระหว่างการดำเนินการทั้งสองนี้คืออะไร ทำไมคุณต้องทำ DFT ในครั้งแรกและจากนั้น DCT เป็นครั้งที่สอง