การประมวลผลสัญญาณ

ถามตอบสำหรับผู้ปฏิบัติงานด้านศิลปะและวิทยาศาสตร์ของการประมวลผลสัญญาณภาพและวิดีโอ

3
ทำไมขนาดปกติในระหว่างการสังเคราะห์ (IDFT) ไม่ใช่การวิเคราะห์ (DFT)
ในตัวอย่างส่วนใหญ่และรหัส FFT ที่ฉันได้เห็นเอาท์พุท (ขนาดคลื่นความถี่) ของการดำเนินการ DFT ไปข้างหน้าจะถูกปรับขนาดโดย N - นั่นคือแทนที่จะให้ขนาดของถังขยะแต่ละอันทำให้คุณมีขนาดเป็น N การดำเนินการนี่เป็นเพียงเพราะ DFT คำนวณโดยการใช้ผลิตภัณฑ์ด้านในของสัญญาณที่มีพื้นฐานแต่ละไซน์ (เช่นความสัมพันธ์ที่ไม่เป็นมาตรฐาน อย่างไรก็ตามนั่นไม่ได้ตอบคำถามเชิงปรัชญาว่าทำไมเราไม่หารหารด้วย N ก่อนส่งคืนผลลัพธ์ อัลกอริธึมส่วนใหญ่หารด้วย N เมื่อทำการสังเคราะห์ใหม่ นี่ดูเหมือนจะขัดกับฉันและ (เว้นแต่ฉันจะทำบางสิ่ง) มันทำให้คำอธิบายทั้งหมดของ DFT สับสนมาก ในทุกสถานการณ์ที่ฉันสามารถฝันได้ขนาดที่แท้จริง (ไม่ใช่ขนาด * N) คือค่าที่ฉันต้องการจากการดำเนินการ DFT และขนาดปกติคือค่าที่ฉันต้องการป้อนลงในการดำเนินการ IDFT เหตุใด DFT จึงไม่ถูกกำหนดเป็น DFT / N และ IDFT ถูกกำหนดให้เป็นผลรวมของไซนัสอยด์ขนาดปกติ

1
การใช้ตัวกรองการคาดคะเนข้อผิดพลาดสำหรับการกรองสัญญาณกึ่งรู้จัก
ฉันพยายามล้อมรอบการใช้ Wiener หรือตัวกรองการคาดคะเนข้อผิดพลาดเพื่อการกรองข้อมูล สำหรับฉันดูเหมือนว่ามันเป็นเพียงตัวกรองฟอกสีฟันดังนั้นจะใช้อย่างไรเมื่อข้อมูลที่คุณต้องการกู้คืนไม่ใช่สัญญาณ AWGN ยกตัวอย่างเช่นฉันมีสัญญาณที่มีสัญญาณรบกวนหลาย Distint - ฉันสามารถเห็นพวกเขาใน PSD แต่ฉันไม่ทราบว่าพวกเขาเป็น) เครื่องเขียนและ b) สิ่งที่พวกเขามีคุณสมบัติ ฉันสามารถใช้วิธีเช่นสมการ Yule-Walker เพื่อกู้คืนโมเดล AR สำหรับสัญญาณทั้งหมดแต่ในกรณีนี้ฉันเพียงต้องการกู้คืนโมเดลของสัญญาณรบกวนเท่านั้นไม่ใช่ส่วนที่ฉันต้องการกู้คืน ฉันลองใช้ตัวกรองรอย LMS แบบปรับตัวโดยสัญญาณอ้างอิงเป็นสัญญาณคลื่นวิทยุเดียว แต่สิ่งนี้กลับกลายเป็นว่าฉันแคบเกินไปและไม่ได้ติดตามการเปลี่ยนแปลงความถี่ในสัญญาณได้เป็นอย่างดี ฉันเดาว่าคำถามของฉันคือถ้าฉันใช้ตัวกรองการคาดคะเนข้อผิดพลาดเพื่อกรองข้อมูลจริงฉันจะแยกส่วนข้อมูลออกจากส่วนที่เป็นจุดรบกวนได้อย่างไร กล่าวอีกนัยหนึ่งฉันไม่ต้องการทำให้สัญญาณทั้งหมดขาวขึ้นเพียงส่วนของเสียง ฉันพลาดอะไรไป

3
วิธีการตรวจจับการไล่ระดับสีและขอบในรูปภาพ?
ฉันต้องการที่จะหาจุดในภาพที่เป็นจุดศูนย์กลางของการไล่ระดับสีแบบรัศมีเช่นเดียวกับที่แสดงในภาพด้านซ้ายด้านล่าง มีความคิดเห็นเกี่ยวกับวิธีการใช้ Hough transform หรือวิธีการมองเห็นด้วยคอมพิวเตอร์อื่น ๆ อย่างไร ขอบคุณ ภาพการค้นหาตัวอย่าง:

4
คำอธิบายที่ใช้งานง่ายของการติดตามด้วยตัวกรองคาลมาน
ฉันขอขอบคุณคำอธิบายที่ใช้งานง่ายสำหรับการติดตาม (ภาพ) ด้วยตัวกรองคาลมาน สิ่งที่ฉันรู้: ขั้นตอนการทำนาย: สถานะของระบบแบบไดนามิก : ตำแหน่งเป้าหมาย ณ เวลาxเสื้อxเสื้อ\mathbf x_tเสื้อเสื้อt การวัด : รูปภาพที่ดัชนีเวลา (??)Zเสื้อZเสื้อ\mathbf z_tเสื้อเสื้อt จากภาพ / การวัดฉันต้องการที่จะทำนายสถานะ ? (ใช้สมการแบบไดนามิก) ถูกต้องไหม?1 → ( t - 1 )1→(เสื้อ-1)1\rightarrow(t-1)xเสื้อxเสื้อ\mathbf x_t ฉันจะตีความขั้นตอนการแก้ไขเป็นคำเหล่านั้นได้อย่างไร (รูปภาพสถานที่เป้าหมาย)

2
ตัวกรองคาลมานเหมาะสมกับการกรองตำแหน่งจุดที่คาดการณ์ไว้หรือไม่?
ระบบของฉันมีดังต่อไปนี้ ฉันใช้กล้องของอุปกรณ์มือถือเพื่อติดตามวัตถุ จากการติดตามนี้ฉันได้รับคะแนน 3D สามจุดที่ฉันฉายไว้บนหน้าจอเพื่อรับคะแนน 2D สี่คะแนน ค่า 8 ค่านี้มีเสียงดังเนื่องจากการตรวจจับดังนั้นฉันต้องการกรองค่าเหล่านี้เพื่อให้การเคลื่อนไหวราบรื่นและสมจริงยิ่งขึ้น เป็นการวัดครั้งที่สองฉันใช้การวัดการหมุนวนของอุปกรณ์ซึ่งมีมุมออยเลอร์สามมุม (เช่นทัศนคติของอุปกรณ์) สิ่งเหล่านี้มีความแม่นยำและความถี่สูงกว่า (สูงถึง 100 Hz) กว่าตำแหน่ง 2D (ประมาณ 20 Hz) ความพยายามครั้งแรกของฉันคือการใช้ตัวกรอง low-pass แบบง่าย ๆ แต่ความล่าช้าเป็นสิ่งสำคัญดังนั้นตอนนี้ฉันจึงพยายามใช้ตัวกรอง Kalman โดยหวังว่ามันจะสามารถทำให้ตำแหน่งราบรื่นด้วยความล่าช้าเล็กน้อย ดังที่เห็นในคำถามก่อนหน้าประเด็นสำคัญหนึ่งจุดในตัวกรองคาลมานคือความสัมพันธ์ระหว่างการวัดและตัวแปรสถานะภายใน ที่นี่การวัดมีทั้งพิกัด 8 จุด 2D ของฉันและมุม 3 ออยเลอร์ แต่ฉันไม่แน่ใจเกี่ยวกับสิ่งที่ฉันควรใช้เป็นตัวแปรสถานะภายในและวิธีที่ฉันควรเชื่อมต่อมุมออยเลอร์กับจุด 2D ดังนั้นคำถามหลักตัวกรองคาลมานเหมาะกับปัญหานี้หรือไม่ และถ้าใช่เป็นอย่างไร

4
คุณคำนวณความเรียบของสเปกตรัมจาก FFT อย่างไร
ตกลงความเรียบของสเปกตรัม (หรือเรียกอีกอย่างว่า Wiener เอนโทรปี) ถูกกำหนดเป็นอัตราส่วนของค่าเฉลี่ยเรขาคณิตของสเปกตรัมต่อค่าเฉลี่ยเลขคณิต วิกิพีเดียและการอ้างอิงอื่น ๆ บอกว่าสเปกตรัมกำลัง นั่นคือจตุรัสของฟูริเยร์ใช่ไหม FFT สร้าง "สเปกตรัมแอมพลิจูด" แล้วคุณยกกำลังสองนั้นเพื่อให้ได้ "สเปกตรัมพลังงาน"? โดยพื้นฐานแล้วสิ่งที่ฉันอยากรู้คือถ้าspectrum = abs(fft(signal))สิ่งใดที่ถูกต้อง? spectral_flatness = gmean(spectrum)/mean(spectrum) spectral_flatness = gmean(spectrum^2)/mean(spectrum^2) คำนิยามของ Wikipedia ดูเหมือนว่าจะใช้ขนาดโดยตรง: F l a t n e s s = ∏ยังไม่มีข้อความ- 1n = 0x ( n )---------√ยังไม่มีข้อความΣยังไม่มีข้อความ- 1n = 0x ( n )ยังไม่มีข้อความ= ประสบการณ์( 1)ยังไม่มีข้อความΣยังไม่มีข้อความ- …

1
ขั้นตอนการประมวลผลล่วงหน้าที่เหมาะสมในการดำเนินการวิเคราะห์ส่วนประกอบอิสระคืออะไร
ขั้นตอนที่เหมาะสมสำหรับการประมวลผลสัญญาณของฉันล่วงหน้าเพื่อดำเนินการวิเคราะห์ส่วนประกอบอิสระ (ICA) ในภายหลังคืออะไร? ฉันเข้าใจวิธีที่แม้ว่าคำอธิบายเพิ่มเติมของที่ไม่เจ็บ แต่ฉันสนใจมากขึ้นในสาเหตุ

2
ฉันจะออกแบบตัวกรองการแก้ไขของ Nyquist ด้วยอัลกอริทึม Parks-McClellan ได้อย่างไร
เราสามารถออกแบบตัวกรองการแก้ไขที่ปฏิบัติตามข้อ จำกัด ความถี่โดเมนบางอย่างได้อย่างง่ายดายโดยใช้อัลกอริทึมParks-McClellan อย่างไรก็ตามยังไม่ชัดเจนว่าจะบังคับใช้ข้อ จำกัด ของโดเมนเวลาได้อย่างไร โดยเฉพาะอย่างยิ่งฉันสนใจที่จะสร้างตัวกรอง Nyquist ดังนั้นถ้าฉัน oversampling โดยปัจจัยของNผมต้องการตัวกรองที่จะมีศูนย์นํ้าที่kNสำหรับที่ไม่ใช่ศูนย์จำนวนเต็มk(เพื่อให้แน่ใจว่ากลุ่มตัวอย่างที่เข้ากับ interpolator ของฉันจะปรากฏในลำดับการส่งออก) ผมเคยเห็นแฮร์ริส1N=2พูดคุยเกี่ยวกับเทคนิคการออกแบบฟิลเตอร์ครึ่งวงคือกรณีพิเศษที่ มีวิธีแก้ปัญหาทั่วไปสำหรับสิ่งนี้หรือไม่? (ฉันรู้ว่าเราสามารถออกแบบตัวกรองได้อย่างง่ายดายด้วยวิธีหน้าต่าง แต่นั่นไม่ได้ให้ตัวควบคุมเดียวกันกับเรา) [1] การประมวลผลสัญญาณหลายระดับสำหรับระบบสื่อสาร , หน้า 208-209

1
มีเทคนิคการประมาณค่าใดสำหรับฟังก์ชัน super-root
ฉันต้องใช้การประมาณค่ากับการผกผันของนั่นคือฟังก์ชันsquare super-root (ssrt) ยกตัวอย่างเช่นs s R T ( 2 ) ≈ 1.56หมายความว่า1.56 1.56 ≈ 2 ฉันไม่สนใจความถูกต้อง / ความลึกบิตใด ๆ โดยเฉพาะในขณะที่ฉันเข้าใจว่าตัวเลือกของฉันแตกต่างจากวิธีการที่ตรงไปตรงมามากขึ้นโดยใช้ซีรีย์พลังงานxxxxx^xssrt(2)≈1.56ssrt(2)≈1.56\mathrm{ssrt}(2) \approx 1.561.561.56≈21.561.56≈21.56^{1.56} \approx 2 Wolfram Alpha ให้ดีวิธีการแก้ปัญหาที่เป็นสัญลักษณ์ในแง่ของฟังก์ชั่นแลมเบิร์ W (เช่น ) วิกิพีเดียให้สูตรเดียวกันเช่นเดียวกับเทียบเท่าอีW ( LN ( x ) ) เนื่องจากมีข้อมูลจำนวนหนึ่งที่สมเหตุสมผลเกี่ยวกับการคำนวณW ( x ) [1] [2] ในทางเทคนิคแล้วนั่นคือทุกสิ่งที่จำเป็นในการใช้งานบางอย่างln(x)/W(ln(x))ln⁡(x)/W(ln⁡(x))\ln(x)/W(\ln(x))eW(ln(x))eW(ln⁡(x))e^{W(\ln(x))}W(x)W(x)W(x)สำหรับความต้องการที่หลากหลาย ฉันรู้หนังสืออย่างน้อยสองเล่มที่มีรายละเอียดมากมายเกี่ยวกับการประมาณ [3] [4] ดังนั้นจึงมีพื้นที่เหลือเฟือที่จะปรับให้เหมาะสมจากทิศทางนั้นln(x)ln⁡(x)\ln(x) อย่างไรก็ตามฉันมีสองคำถาม: มีเทคนิคการประมาณเฉพาะสำหรับฟังก์ชั่นนี้ที่ถูกเผยแพร่ทุกที่หรือไม่? …

3
หนังสือเรียนที่ดีสำหรับการออกแบบตัวกรองสัญญาณ
ตั้งแต่สองสามเดือนที่ผ่านมาฉันเริ่มมีส่วนร่วมในการควบคุมระบบพลวัต ในกรณีส่วนใหญ่การออกแบบตัวควบคุมสำหรับระบบไดนามิกที่กำหนดจะต้องใช้เทคนิคการประมวลผลสัญญาณดิจิตอลโดยเฉพาะในพื้นที่ของตัวกรองสัญญาณ เนื่องจากฉันไม่มีพื้นฐานด้านวิศวกรรมการควบคุมฉันจึงสงสัยว่ามีใครบ้างที่อาจให้คำแนะนำเกี่ยวกับตำราเสียงที่เกี่ยวข้องกับตัวกรองสัญญาณในรายละเอียด หนังสือเรียนควรรวม: รู้เบื้องต้นเกี่ยวกับตัวกรองที่พบบ่อยที่สุดในพื้นที่ของ DSP; คำอธิบายลักษณะสำคัญของพวกเขาทั้งในโดเมนความถี่และเวลา โดยทั่วไปจะใช้ในสถานการณ์ใด (บทบาทหรือหน้าที่ของตัวกรอง) แม้ว่าจะเป็นคำถามที่ไร้เดียงสาฉันหวังว่าคุณอาจแนะนำตำราเรียนสองเล่ม

3
ความแตกต่างระหว่าง SNR และ PSNR
ฉันเข้าใจว่า SNR เป็นอัตราส่วนของกำลังสัญญาณต่อพลังเสียง ในแง่ของภาพว่าภาพต้นฉบับได้รับผลกระทบจากสัญญาณรบกวนที่เพิ่มเข้ามาอย่างไร ใน PSNR เราใช้ค่ากำลังสองของค่าสูงสุดในภาพ (ในกรณีของรูป 8 บิตค่าสูงสุดคือ 255) และหารด้วยความผิดพลาดกำลังสองเฉลี่ย SNR และ PSNR ใช้สำหรับวัดคุณภาพของภาพหลังการสร้างใหม่ ฉันเข้าใจว่า SNR หรือ PSNR ที่สูงกว่าการสร้างใหม่นั้นดี สิ่งที่ฉันไม่เข้าใจคือ SNR และ PSNR แตกต่างกันอย่างไรในแง่ของข้อสรุปเกี่ยวกับภาพที่สร้างขึ้นใหม่ ภาพ PSNR ใดที่สรุปว่า SNR ของภาพเดียวกันไม่สามารถสรุปได้? บทสรุปของ PSNR นั้นแตกต่างจากบทสรุปของ SNR อย่างไร

2
เหตุใดเราจึงใช้ตัวบอกคำสำคัญ
ฉันเพิ่งศึกษาเกี่ยวกับ SURF และฉันจะลงมือปฏิบัติ แต่ฉันก็ยังไม่เข้าใจว่าทำไมเราจึงใช้ตัวอธิบาย ฉันเข้าใจว่าประเด็นสำคัญคืออะไรและจุดประสงค์ของพวกเขา แต่เมื่อเราแยกจุดสำคัญออกไปกว่าเหตุใดเราจึงจำเป็นต้องใช้ตัวอธิบาย? ความสำคัญและบทบาทของพวกเขาในการรับรู้คืออะไร?

6
การออกแบบตัวกรองโดยการกระจายเสาและศูนย์บนเส้นโค้งแบบพารามิเตอร์
NNNเพื่อ TH บัตเตอร์ low-pass filterของตัดความถี่สามารถออกแบบโดยการกระจายเสาอย่างสม่ำเสมอด้วยความเคารพพารามิเตอร์ใน S-เครื่องบินพาราโค้งซึ่งเป็นครึ่งวงกลม:ωcωc\omega_cNNN0&lt;α&lt;10&lt;α&lt;10 < \alpha <1f(α)=ωcei(π/2+πα)f(α)=ωcei(π/2+πα)f(\alpha) = \omega_c e^{i(\pi/2+\pi\alpha)} รูปที่ 1 ขั้วลำดับ Butterworth ลำดับที่ 6 (CC BY-SA 3.0 Fcorthay) เป็นที่น่าสังเกตว่าเส้นโค้งพารามิเตอร์เดียวกันนี้สามารถใช้กับองศาการกรองใด ๆ ที่ให้ฟังก์ชั่นการถ่ายโอนที่ผิดปกติ:NNN H(s)=∏k=1N1s−f(2k−12N),(1)(1)H(s)=∏k=1N1s−f(2k−12N),H(s)=\prod_{k=1}^N\frac{1}{s-f\left(\frac{2k-1}{2N}\right)},\tag{1} และตัวกรองผลลัพธ์เป็นตัวกรอง Butterworth เสมอ กล่าวคือไม่มีตัวกรองอื่น ๆ ที่มีหมายเลขเดียวกันของเสาและศูนย์มีจำนวนที่สูงขึ้นของสัญญาซื้อขายล่วงหน้าที่หายไปของการตอบสนองความถี่ขนาดที่ความถี่และ\ ชุดตัวกรอง Butterworth ที่มีความถี่การตัดเดียวกันสร้างชุดย่อยของตัวกรอง Butterworth ที่เส้นโค้งพารามิเตอร์ไม่ซ้ำกัน เซตย่อยไม่มีที่สิ้นสุดเนื่องจากไม่มีขอบเขตบนω=0ω=0\omega = 0ω=∞ω=∞\omega = \inftyωcωc\omega_cf(α)f(α)f(\alpha)NNN โดยทั่วไปแล้วไม่นับเสาและศูนย์ที่ไม่มีที่สิ้นสุดเว้นแต่พวกมันจะเกิดจากเส้นโค้งพารามิเตอร์ตัวกรองใด ๆ ที่มีเสาและศูนย์โดยที่เป็นจำนวนเต็มและเป็นเศษส่วนที่ไม่ใช่ค่าลบแบบปกติ:NNpNNpNN_pNNzNNzNN_zNNNNz/NpNz/NpN_z/N_p H(s)=∏NNzk=1(s−fz(2k−12NNz))∏NNpk=1(s−fp(2k−12NNp)),(2)(2)H(s)=∏k=1NNz(s−fz(2k−12NNz))∏k=1NNp(s−fp(2k−12NNp)),H(s)=\frac{\prod_{k=1}^{NN_z}\left(s-f_z\left(\frac{2k-1}{2NN_z}\right)\right)}{\prod_{k=1}^{NN_p}\left(s-f_p\left(\frac{2k-1}{2NN_p}\right)\right)},\tag{2} โดยที่fp(α)fp(α)f_p(\alpha)และเป็นเส้นโค้งพาราที่อาจอธิบายการกระจายของเสาและศูนย์ในวงเงินNfz(α)fz(α)f_z(\alpha)N→∞N→∞N\to\infty คำถามที่ 1: ประเภทตัวกรองอื่นที่ไม่ใช่ …

1
ช่วยในการคำนวณ / ทำความเข้าใจเกี่ยวกับ MFCCs: ค่าสัมประสิทธิ์ของ Mel-Frequency
ฉันกำลังอ่านบิตและชิ้นส่วนออนไลน์ แต่ฉันไม่สามารถรวมมันเข้าด้วยกันได้ ฉันมีความรู้พื้นฐานเกี่ยวกับสัญญาณ / สิ่ง DSP ซึ่งน่าจะเพียงพอสำหรับสิ่งนี้ ในที่สุดฉันสนใจที่จะเขียนอัลกอริทึมนี้ใน Java แต่ฉันยังไม่เข้าใจมันอย่างสมบูรณ์ซึ่งเป็นสาเหตุที่ฉันมาที่นี่ (นับเป็นคณิตศาสตร์ใช่ไหม) นี่คือวิธีที่ฉันคิดว่ามันทำงานร่วมกับช่องว่างในความรู้ของฉัน เริ่มต้นด้วยตัวอย่างเสียงพูดของคุณพูดไฟล์. WAV ที่คุณสามารถอ่านเป็นอาร์เรย์ได้ เรียกอาร์เรย์นี้ว่าโดยที่nมีช่วงตั้งแต่0 , 1 , … , N - 1 ( ตัวอย่างNดังนั้น) ค่าที่สอดคล้องกับความเข้มของเสียงที่ฉันเดา - แอมพลิจูดx[n]x[n]x[n]nnn0,1,…,N−10,1,…,N−10, 1, \ldots ,N-1NNN แยกสัญญาณเสียงออกเป็น "เฟรม" ที่แตกต่างกัน 10ms หรือมากกว่านั้นเมื่อคุณถือว่าสัญญาณเสียงพูดคือ "นิ่ง" นี่คือรูปแบบของการหาปริมาณ ดังนั้นหากอัตราตัวอย่างของคุณเป็น 44.1KHz, 10ms เท่ากับ 441 ตัวอย่างหรือค่าของ ]x[n]x[n]x[n] ทำการแปลงฟูริเยร์ (FFT เพื่อประโยชน์ในการคำนวณ) ทีนี้ทำสิ่งนี้กับสัญญาณทั้งหมดหรือในแต่ละเฟรมที่แยกกันของ …

2
การตรวจจับวงกลมในข้อมูลภาพที่มีเสียงดัง
ฉันมีภาพที่ดูเหมือนด้านล่าง: ฉันพยายามหารัศมี (หรือเส้นผ่าศูนย์กลาง) ของวงกลม ฉันได้ลองใช้การแปลงแบบ Hough แบบวงกลม (ผ่านทาง matlab's imfindcircles(bw,[rmin rmax],'ObjectPolarity','bright')) และโดยการปรับให้เหมาะกับรูปวงกลมหรือวงรี (ฟังก์ชั่นโฮมเมดที่ทำงานได้ดีสำหรับข้อมูลที่มีเสียงรบกวนน้อยดูด้านล่าง) ฉันได้ลองประมวลผลภาพเพื่อให้ได้วงกลมที่ชัดเจนขึ้นเช่นดูด้านล่าง: se = strel('disk', 2); bw = imdilate(bw, se); bw = bwareaopen(bw,100000); bw = edge(bw); อย่างไรก็ตามเมื่อฉันป้อนรูปภาพที่ถูกประมวลผลไปยังเทคนิคใด ๆ (การปรับ Hough และ circle \ ellipse) ทั้งคู่ไม่สามารถตรวจจับวงกลมในลักษณะที่เหมาะสมได้ นี่คือข้อมูลโค้ดของตัวค้นหาวงกลมที่ฉันเขียน (matlab) [row col] = find (bw); contour = bwtraceboundary (bw, แถว (1), …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.