เมื่อใดฉันจึงควรคำนวณ PSD แทนสเปกตรัมขนาด FFT ธรรมดา


12

ฉันมีสัญญาณเสียงพูดสามสิบวินาทีที่เก็บตัวอย่างที่ 44.1 kHz ตอนนี้ฉันต้องการที่จะแสดงให้เห็นว่าคำพูดที่มีความถี่ อย่างไรก็ตามฉันไม่แน่ใจว่าสิ่งใดจะเป็นวิธีที่ดีที่สุดในการทำเช่นนั้น ดูเหมือนว่าบางครั้งเราคำนวณค่าสัมบูรณ์ของการแปลงฟูริเยร์และบางครั้งความหนาแน่นของสเปกตรัมกำลัง หากฉันเข้าใจอย่างถูกต้องหลังจะทำงานเพื่อที่ฉันจะแบ่งสัญญาณของฉันออกเป็นส่วน ๆ ทำ FFT ทีละส่วนแล้วหาผลรวมเหล่านี้ ฟังก์ชั่นหน้าต่างมีส่วนเกี่ยวข้องอย่างใด คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหม? ฉันใหม่กับ DSP


1
การแบ่งสัญญาณออกเป็นส่วน ๆ การหาคลื่นความถี่ของแต่ละภาพจากนั้นค่าเฉลี่ยสเปกตรัมจะช่วยลดเสียงรบกวน แต่ลดความละเอียดลงด้วย ดูen.wikipedia.org/wiki/Welch%27s_method
endolith

คำตอบ:


8

ตอนนี้ฉันต้องการที่จะแสดงให้เห็นว่าคำพูดที่มีความถี่ อย่างไรก็ตามฉันไม่แน่ใจว่าสิ่งใดจะเป็นวิธีที่ดีที่สุดในการทำเช่นนั้น ดูเหมือนว่าบางครั้งเราคำนวณค่าสัมบูรณ์ของการแปลงฟูริเยร์และบางครั้งความหนาแน่นของสเปกตรัมกำลัง

หากคุณต้องการแนบความหมายทางกายภาพกับการวิเคราะห์ของคุณให้ใช้ความหนาแน่นสเปกตรัมพลังงาน (PSD) นี่เป็นเพราะสิ่งนี้จะให้พลังของสัญญาณของคุณในแต่ละย่านความถี่ ในทางตรงกันข้ามถ้าคุณไม่ต้องการ / ดูแลเกี่ยวกับความหมายทางกายภาพ แต่ต้องการทราบว่าแอมพลิจูดของฟูริเยร์ในแต่ละแบนด์นั้นมีความแตกต่างกันอย่างไรคุณสามารถยึดติดกับขนาดที่แน่นอน

x[n]X(f)|X(f)||X(f)|2

หากฉันเข้าใจอย่างถูกต้องหลังจะทำงานเพื่อที่ฉันจะแบ่งสัญญาณของฉันออกเป็นส่วน ๆ ทำ FFT ทีละส่วนแล้วหาผลรวมเหล่านี้ ฟังก์ชั่นหน้าต่างมีส่วนเกี่ยวข้องอย่างใด คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหม? ฉันใหม่กับ DSP

ไม่นี่ไม่เป็นความจริง สิ่งที่คุณกำลังพูดถึงที่นี่หมายถึงการแปลงฟูริเยร์ช่วงเวลาสั้นๆ (STFT) นี่เป็นเพียงการตัดสัญญาณโดเมนเวลาของคุณม่ายมันแล้วรับฟูเรียร์ trnasform ในตอนท้ายของวันแม้ว่าคุณจะยังคงมีเมทริกซ์ที่ซับซ้อน หากคุณเลือกที่จะใช้ขนาดที่แน่นอนคุณจะมีเมทริกซ์การแปลงฟูริเยร์ที่มีขนาดสมบูรณ์ หากคุณวัดขนาดกำลังสองสัมบูรณ์คุณจะมีเมทริกซ์ความหนาแน่นสเปกตรัมพลังงาน


3

สิ่งสำคัญที่ต้องเข้าใจเกี่ยวกับบางสิ่งบางอย่างเช่นสัญญาณเสียงพูดคือส่วนประกอบของความถี่แตกต่างกันไปตามเวลา เพื่อแทนคำพูดในโดเมนความถี่ที่เรามักจะใช้เวลาพอสั้นหน้าต่างของสัญญาณภายในซึ่งเราสามารถสรุปได้ว่าคลื่นความถี่ของการพูดไม่ได้แตกต่างกันอย่างมีนัยสำคัญ (ปกติ 10 มิลลิวินาที) ดังนั้นเราจึงคำนวณสเปกตรัมพลังงานสำหรับแต่ละหน้าต่าง 10 ms ที่ต่อเนื่องกันโดยใช้STFT (มักจะมีการเหลื่อมกันระหว่างหน้าต่าง) และถือว่าแต่ละสเปกตรัมต่อเนื่องเป็น "ภาพรวม" ของส่วนประกอบความถี่ของคำพูดในเวลานั้น บ่อยครั้งที่สเปกตรัมต่อเนื่องถูกพล็อตในพล็อต 3 มิติเช่นspectrogramด้วยเวลาบนแกน X ความถี่บนแกน Y และขนาดที่วางแผนไว้เป็นสีเท็จหรือความเข้มของระดับสีเทาในแต่ละตำแหน่ง X, Y

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.