สามารถใช้ DCT สำหรับสเปกตรัมขนาดเสียงแทน DFT ได้หรือไม่


13

จากสิ่งที่ฉันเข้าใจ DCT มีขนาดครึ่งถังเป็น DFT ที่มีขนาดเท่ากัน N DFT ยังรวมข้อมูลเฟสด้วย แต่บ่อยครั้งที่สิ่งนี้ไม่จำเป็นเมื่อต้องการสเปกตรัมขนาดเท่านั้น

  • DCT สามารถนำมาใช้เพื่อให้สเปกตรัมขนาดที่มีความหนาแน่นเป็นสองเท่า (ระยะห่างครึ่งช่องเก็บขยะ) ของ DFT หรือข้อมูลเฟสขาดหายไปได้หรือไม่?
  • ทับซ้อนกัน 50% แล้วล่ะ

4
ฉันเชื่อว่า DCT มีข้อมูลเฟสเช่นกันมันไม่ได้ใช้จำนวนเชิงซ้อน "FFT ที่แท้จริง" ยังใช้หน่วยความจำครึ่งหนึ่งและใช้เวลาในการคำนวณเพียงครึ่งเดียวสำหรับข้อมูลเดียวกันโดยละทิ้งความถี่ลบที่เหมือนกัน "ส่วนที่แท้จริงของ FFT ที่มีความยาวสองเท่านั้นเหมือนกับ DCT ยกเว้นการเลื่อนเฟสครึ่งตัวอย่างในฟังก์ชั่นพื้นฐานของซายน์"
endolith

อันที่จริงอย่างน้อยสัญลักษณ์ของค่าสัมประสิทธิ์ถือได้ว่าเป็นขั้นตอนของชายยากจน
Laurent Duval

คำตอบ:


3

ใช่ DCT สามารถใช้เพื่อให้สเปกตรัมขนาดที่มีความหนาแน่นเป็นสองเท่า ฉันไม่ค่อยเข้าใจถึงการทับซ้อนกัน แต่ฉันสมมติว่า DCT ครอบคลุมน้อยกว่าคุณคิดว่าจะมีการทับซ้อน เพื่อให้คำตอบที่เหมาะสมสำหรับคำถามให้ฉันทำการตรวจสอบอย่างรวดเร็วสำหรับการใช้งานของ DCT ในการประมวลผลภาพส่วนใหญ่

อันดับแรกเราต้องทำการตั้งสมมติฐาน ในการใช้ DCT คุณจะต้องมีสัญญาณจริง นี่คือคำจำกัดความ ในขณะที่คุณกำลังพูด DCT มีขนาดครึ่งถังเทียบกับ DFT ในขนาด N คุณกำลังสมมติว่าสัญญาณเป็นสัญญาณความถี่ต่ำ ไม่อย่างนั้นไม่มาก

สำหรับการใช้งาน DCT ในการบีบอัดเนื่องจาก DFT ของรูปภาพจะสมมาตรจึงสร้างข้อมูลที่ซ้ำซ้อน (กระจกมองข้างหนึ่งอันจะเพียงพอที่จะสร้างสัญญาณ) ดังนั้นเคอร์เนลของ DCT ถูกใช้เพื่อสร้างข้อมูลที่หนาแน่นกว่าเมื่อเทียบกับ DFT นี่เป็นความจริงสำหรับสัญญาณเสียงความถี่ต่ำก็สามารถใช้ในลักษณะเดียวกันได้ ในขณะที่มันทำให้มันหนาแน่นค่าสัมประสิทธิ์จะเพิ่มขึ้นเนื่องจากเคอร์เนลของ DCT ครอบคลุมทั้งสองด้าน (ของจริงและส่วนจินตภาพ) ของสัญญาณ

วิชาเอกของฉันคือการประมวลผลภาพดังนั้นฉันจึงพยายามแมปแนวคิด DCT และ DFT และคำอธิบายในการประมวลผลภาพ ความแตกต่างอย่างหนึ่งระหว่างภาพและเสียงอาจเป็นขนาดได้ ในการประมวลผลภาพคุณรู้ขนาด (แถวและคอลัมน์สำหรับ FFT และจุดประสงค์อื่นของการประมวลผล) ฉันเดาว่าคุณต้องแบ่งเวกเตอร์ของข้อมูลเสียงเพื่อดำเนินการต่อไป หากไม่รู้ข้อมูลนี่อาจเป็นปัญหาได้ (ฉันไม่แน่ใจ)

นี่คือภาพที่นำมาจากเว็บ แต่ฉันไม่ได้เขียนลงไปในที่ที่ฉันไปอาจเป็นวิกิพีเดีย

การประมวลผลภาพ

อย่างที่คุณเห็นภาพที่ถูกแปลงจะถูกแสดงใน DCT ด้วยสเปกตรัมขนาดที่ไม่มีปัญหา ในวิธีที่กะทัดรัดและแน่นขึ้นและดูขนาดของสัมประสิทธิ์ มันใหญ่กว่า DFT สองเท่า DFT สมมาตรคุณสามารถแบ่งมันเป็นสองส่วนได้ ส่วนหนึ่งซ้ำซ้อน และอีกสิ่งหนึ่ง DCT สามารถจัดเก็บข้อมูลไม่ได้เป็นเพียงครึ่งหนึ่งของ DFT แต่เกือบหนึ่งในสี่ของ DFT โดยทั่วไปแล้วกรณีของ DCT จะเอาชนะ DFT ในภาพ


FFT ไม่สามารถถูกแบ่งออกเป็นสี่ส่วนได้เพราะมันซ้ำซ้อนทั้งในมิติ X และ Y ใช่ไหม
endolith

ทำไมหน้าตาของ FFT จึงมีข้อมูลเพิ่มเติมและ DCT มีเลขศูนย์มากกว่า
endolith

คำถามแรกฉันไม่ค่อยเข้าใจคุณหมายถึงอะไรในมิติ X และ Y สำหรับคำถามที่สองเป็นเพราะเมล็ดแตกต่างกัน ดูเหมือนว่า DCT จะมีเลขศูนย์มากกว่า แต่จริง ๆ แล้วมีเลขศูนย์มากกว่า Fourier Transform (DFT) นี่เป็นเพราะความแตกต่างในเมล็ดของพวกเขาอีกครั้ง
Hephaestus

ฉันหมายความว่าภาพนั้นเป็นสัญญาณจริงดังนั้น FFT จึงมีข้อมูลซ้ำซ้อน ครึ่งลบของ FFT เป็นเพียงกระจกครึ่งบวกในทั้งสองมิติ
endolith

0
  • ทับซ้อนกัน 50% แล้วล่ะ

จากคำถามนี้ฉันเข้าใจว่าคุณกำลังคิดเกี่ยวกับการดำเนินการบล็อกการประมวลผลในลักษณะของการเลื่อนฟูริเยร์หรือ spectrogram

  • DCT สามารถนำมาใช้เพื่อให้สเปกตรัมขนาดที่มีความหนาแน่นเป็นสองเท่า (ระยะห่างครึ่งช่องเก็บขยะ) ของ DFT หรือข้อมูลเฟสขาดหายไปได้หรือไม่?

หากคุณพูดคุยเกี่ยวกับคลื่นความถี่ขนาดของหลักสูตรเป็นส่วนหนึ่งของเฟส (ไม่ว่าจะเป็นข้อโต้แย้งที่ซับซ้อนค่าสัมประสิทธิ์ฟูริเยร์หรือสัญญาณของค่าสัมประสิทธิ์ DCT) ที่จะหายไปแล้วล่ะค่ะ

ดังนั้นคุณสามารถเสียบเมล็ดจำนวนมากเพื่อทดแทนการแปลงฟูริเยร์แบบหน้าต่างภายในสูตรระยะสั้น - ฟูริเยร์สำหรับการวิเคราะห์เท่านั้น สายพันธุ์ต่าง ๆ ของ DCT, รุ่นที่ทับซ้อนกันของพวกเขา (LOT, MDCT), ที่มีมุมฉากและคุณสมบัติของหน้าต่างที่ดี, สามารถกลับด้านได้ (การสังเคราะห์)

ในเสียง (ไม่ซับซ้อน) DCT หรือรุ่นที่ทับซ้อนกันมักจะใช้สำหรับการวิเคราะห์การโจมตีและการตรวจจับระดับเสียง (การแยกแหล่งที่มาตาบอด) มีตัวอย่างเช่นSTFT, MDCT และกล่องเครื่องมือ Matlab โดย A. Liutkus ขนาดใหญ่เวลากล่องเครื่องมือการวิเคราะห์ความถี่ (LTFAT)ยังมีคุณสมบัติ:

  • การแปลง TF อย่างรวดเร็วด้วยมาตราส่วนความถี่เชิงเส้นเวลา: Gabor (STFT), Wilson และ MDCT แบบหน้าต่าง
  • การถดถอยแบบกระจัดกระจายในโดเมน Gabor และ WMDCT

ฉันไม่รู้จักเสียงดีนัก อย่างไรก็ตามการทับซ้อนกัน 50% หรือ 75%นั้นเป็นเรื่องธรรมดามากและมีคนน้อยมากที่ใช้การตั้งค่าอื่น ๆ อย่างไรก็ตามมันเป็นเรื่องธรรมดามากที่จะใช้ขนาดหน้าต่างอย่างน้อยสองขนาดซึ่งเป็นส่วนที่อยู่กับที่ที่มีความยาวและสั้นสำหรับใช้ชั่วคราวเพื่อช่วยในการเอาชนะข้อ จำกัด ความถี่เวลา "หน้าต่างเดียว"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.