การประมวลผลสัญญาณ

ถามตอบสำหรับผู้ปฏิบัติงานด้านศิลปะและวิทยาศาสตร์ของการประมวลผลสัญญาณภาพและวิดีโอ

3
Gaussian Blur - ค่าเบี่ยงเบนมาตรฐาน, รัศมีและขนาดเคอร์เนล
ฉันใช้งานตัวแยกส่วน Gaussian Blur ใน GLSL ฉันเข้าใจแนวคิดหลักที่อยู่เบื้องหลังทั้งหมด: convolution, การแยก x และ y โดยใช้ linearity, การผ่านหลายครั้งเพื่อเพิ่มรัศมี ... ฉันยังมีคำถามสองสามข้อที่: ความสัมพันธ์ระหว่างซิกม่าและรัศมีคืออะไร? ฉันอ่านแล้วว่าซิกมาเทียบเท่ากับรัศมีฉันไม่เห็นว่าซิกม่าแสดงออกเป็นพิกเซลได้อย่างไร หรือ "รัศมี" เป็นเพียงชื่อของซิกม่าไม่เกี่ยวข้องกับพิกเซล? ฉันจะเลือก sigma ได้อย่างไร เมื่อพิจารณาว่าฉันใช้หลายรอบเพื่อเพิ่มซิกม่าฉันจะเลือกซิกม่าที่ดีเพื่อรับซิกม่าที่ฉันต้องการได้อย่างไร หากซิกม่าที่เกิดขึ้นเท่ากับสแควร์รูทของผลรวมของกำลังสองของซิกมาสและซิกมาเท่ากับรัศมีแล้ววิธีง่าย ๆ ในการรับรัศมีที่ต้องการคืออะไร? ขนาดที่เหมาะสมสำหรับเคอร์เนลคืออะไรและเกี่ยวข้องกับซิกม่าอย่างไร ฉันเห็นการใช้งานส่วนใหญ่ใช้เคอร์เนล 5x5 นี่อาจเป็นตัวเลือกที่ดีสำหรับการนำไปใช้อย่างรวดเร็วด้วยคุณภาพที่เหมาะสม แต่มีเหตุผลอื่นอีกไหมในการเลือกขนาดเคอร์เนลอื่น sigma เกี่ยวข้องกับขนาดเคอร์เนลอย่างไร ฉันควรหา sigma ที่ดีที่สุดเพื่อให้ค่าสัมประสิทธิ์นอกเคอร์เนลของฉันเล็กน้อยและเป็นปกติ?

1
มีวิธีการวิเคราะห์ในการออกแบบตัวกรองพหุนามแบบสมการกำลังสองหรือไม่?
กระดาษต่อไปนี้อธิบายการประยุกต์ใช้ตัวดำเนินการพลังงาน Teager-Kaiser เพื่อการปรับปรุงภาพเอ็กซ์เรย์: Reinhard Bernstein, Michael S. Moore และ Sanjit K. Mitra " Proc. การประชุมนานาชาติ IEEE เกี่ยวกับการประมวลผลข้อมูลภาพ (ICIP), Santa Barbara, CA, ฉบับที่ 1, pp. 287-290, ตุลาคม 1997. http://vision.ece.ucsb.edu/publications/view_abstract.cgi?52 ผู้เขียนพัฒนาสัญชาตญาณสำหรับพฤติกรรมของตัวกรองผ่านการเปรียบเทียบกับตัวดำเนินการเชิงเส้นที่คล้ายกัน (เช่น"ดังนั้นผลลัพธ์ของตัวกรอง Teager นั้นจะเท่ากับการตอบสนองตัวกรองแบบไฮสปีดโดยประมาณโดยน้ำหนักท้องถิ่น" ) เพื่อความแม่นยำโดยตัวกรองพหุนามกำลังสองฉันหมายถึงตัวกรองที่ไม่เป็นเชิงเส้นไม่ใช่แบบเรียกซ้ำซึ่งสามารถจำแนกลักษณะได้อย่างสมบูรณ์โดยชุด Volterra ที่ถูกตัดทอนดังนี้ (สำหรับกรณี 1D): Y( n ) = ∑ม.1= 0ยังไม่มีข้อความ1- 1ชั่วโมง1( ม1) x ( n - …
19 filters 

1
ความแตกต่างระหว่างความสัมพันธ์และการโน้มน้าวใจกับภาพหรือไม่?
คุณช่วยอธิบายได้อย่างชัดเจนว่าอะไรคือความแตกต่างระหว่างความสัมพันธ์และการโน้มน้าวที่ทำโดยตัวกรองบนรูปภาพ ฉันหมายถึงในแง่ของความหมายของการประมวลผลสัญญาณฉันรู้ว่า convolution อธิบายเอาท์พุทของระบบ LTI นั่นคือถ้าระบบ LTI สร้างผลลัพธ์เนื่องจากการเชื่อมต่อกับระบบอินพุตดังนั้นสัญญาณเอาท์พุทสามารถอธิบายได้ว่าเป็นผลมาจากการ สัญญาณอินพุตและการตอบสนองต่อแรงกระตุ้นของระบบ LTI สำหรับความสัมพันธ์มันอธิบายความคล้ายคลึงกันระหว่างกับสัญญาณ แต่การบิดและความสัมพันธ์มีผลกับภาพอย่างไรและมีความแตกต่างกันอย่างไรในแง่ของผลกระทบ ขอบคุณ

1
Laplace เปลี่ยนรูปแบบซ้ำซ้อนหรือไม่?
การแปลง Laplace เป็นลักษณะทั่วไปของการแปลงฟูริเยร์ตั้งแต่การแปลงฟูริเยร์เป็นการแปลง Laplace สำหรับ (เช่นsเป็นจำนวนจินตภาพบริสุทธิ์ = ศูนย์ส่วนที่แท้จริงของs )s=jωs=jωs = j\omegassssss การแจ้งเตือน: ฟูเรียร์: X(ω)=∫x(t)e−jωtdtX(ω)=∫x(t)e−jωtdtX(\omega) = \int x(t) e^{-j\omega t} dt Laplace transform: X(s)=∫x(t)e−stdtX(s)=∫x(t)e−stdtX(s) = \int x(t) e^{-s t} dt นอกจากนี้สัญญาณยังสามารถสร้างขึ้นใหม่ได้อย่างสมบูรณ์จากการแปลงฟูริเยร์และการแปลง Laplace เนื่องจากส่วนหนึ่งของการแปลง Laplace เป็นสิ่งจำเป็นสำหรับการสร้างใหม่ (ส่วนที่ ) ส่วนที่เหลือของการแปลง Laplace ( ℜ ( s ) ≠ 0 ) ดูเหมือนจะไม่เหมาะสำหรับการสร้างใหม่ ...R(s)=0ℜ(s)=0\Re(s) = 0R(s)≠0ℜ(s)≠0\Re(s) …

3
แสดงให้คนอื่นเห็นว่าฉันได้ยินตัวเองอย่างไร
Sooo .. ฉันคิดเกี่ยวกับสิ่งนี้ เราทุกคนรู้ว่าเราเสียงแตกต่างจากสิ่งที่เราได้ยินเสียงของเราเอง มันง่ายที่จะทราบว่าคนอื่นได้ยินเราโดยการบันทึกตนเองและฟัง แต่แล้ววิธีอื่น ๆ ล่ะ? มีวิธีที่จะเปลี่ยนเสียงของเราในแบบที่คนอื่นสามารถได้ยินเราเมื่อเรารับรู้เสียงของเราเองหรือไม่? ฉันคิดว่ามันเป็นคำถามที่น่าสนใจทีเดียว น่าเศร้าที่ฉันไม่พบสิ่งใดบนเว็บหลังจากค้นหา google สองสามครั้ง ไม่มีใครคิดเกี่ยวกับเรื่องนี้หรือเป็นไปไม่ได้เพราะเหตุผลบางอย่างที่ฉันไม่เห็น? ใด ๆ ที่นำไปสู่การนี้จะได้รับการชื่นชม :)

4
ไลบรารีสำหรับการตรวจหากิจกรรมเสียง (ไม่ใช่การจดจำเสียง)
ตามคำถามก่อนหน้านี้ฉันสงสัยว่ามีห้องสมุดตรวจจับเสียงพูดอยู่หรือไม่ โดยการตรวจจับเสียงฉันหมายถึงการส่งผ่านบัฟเฟอร์เสียงและกลับดัชนีซึ่งการพูดเริ่มและหยุด ดังนั้นหากฉันมีการสุ่มตัวอย่างเสียง 10 วินาทีที่ 44kHz ฉันคาดว่าจะมีอาร์เรย์ของตัวเลขเช่น: 44000 88000 123000 190334 ... สิ่งนี้จะบ่งบอกถึงตัวอย่างเช่นคำพูดเริ่มต้นหนึ่งวินาทีแล้วเสร็จที่จุดสองวินาทีเป็นต้น สิ่งที่ฉันไม่ต้องการคือการรู้จำเสียงพูดซึ่งเขียนข้อความจากคำพูด น่าเสียดายที่นี่เป็นสิ่งที่ฉันเห็นมากเมื่อฉัน 'ตรวจจับคำพูด' ของ Google คงจะดีถ้าห้องสมุดอยู่ใน C, C ++ หรือแม้แต่ Objective-C เพราะฉันเขียนแอพสำหรับ iPhone ขอบคุณ!
18 audio  speech 

2
ความถี่ตัดของตัวกรองเฉลี่ยเคลื่อนที่คืออะไร
ฉันต้องการออกแบบตัวกรองค่าเฉลี่ยเคลื่อนที่ซึ่งมีความถี่การตัดที่ 7.8 Hz ฉันเคยใช้ตัวกรองค่าเฉลี่ยเคลื่อนที่มาก่อน แต่เท่าที่ฉันทราบพารามิเตอร์เดียวที่สามารถป้อนได้คือจำนวนคะแนนที่ต้องเฉลี่ย ... สิ่งนี้เกี่ยวข้องกับความถี่ที่ถูกตัดออกได้อย่างไร ค่าผกผันของ 7.8 Hz คือ ~ 130 ms และฉันกำลังทำงานกับข้อมูลที่เก็บตัวอย่างที่ 1000 Hz นี่หมายความว่าฉันควรใช้ขนาดตัวกรองเฉลี่ยเคลื่อนที่ของตัวอย่าง 130 ตัวอย่างหรือมีอย่างอื่นที่ฉันหายไปหรือไม่

4
ข้อ จำกัด ของ Canny Edge Detector คืออะไร?
วรรณกรรมส่วนใหญ่เกี่ยวกับอัลกอริธึมการตรวจจับขอบและแอพพลิเคชั่นที่ใช้การตรวจจับขอบอ้างอิงเครื่องตรวจจับขอบของ Canny มากจนดูเหมือน "แก้ปัญหา" เกือบถึงการตรวจจับขอบ แน่นอนว่ามันจะทำให้งานดีที่สุดสมดุลเสียงรบกวนและรักษาขอบ อย่างไรก็ตามในความอยากรู้อยากเห็นง่ายๆมีพื้นที่ของความกังวลสำหรับเครื่องตรวจจับขอบของ Canny หรือไม่? หรือมีพื้นที่ของแอปพลิเคชันที่ Canny จะไม่ดีที่สุด ในบริบทนี้การดำเนินการที่รวดเร็วไม่ได้เกี่ยวข้องกับ จุดโฟกัสของตัวตรวจจับขอบที่ดีหรือไม่ดีควรเป็นคุณภาพและประโยชน์ของขอบที่สร้างขึ้น นอกจากนี้ฉันไม่ได้มุ่งเน้นไปที่ปัญหาเฉพาะการใช้งาน ฉันกำลังมองหาข้อ จำกัด ทางทฤษฎีหรือลักษณะเพิ่มเติมที่มีอยู่ในอัลกอริทึม

5
พอดีกับข้อมูลเชิงเส้น
วิธีที่มีประสิทธิภาพในการใส่ข้อมูลเชิงเส้น แต่ไม่มีเสียงรบกวนคืออะไร ฉันกำลังวัดสัญญาณซึ่งประกอบด้วยส่วนต่าง ๆ เกือบเป็นเส้น ฉันต้องการใส่ข้อมูลลงไปหลายเส้นเพื่อตรวจจับการเปลี่ยนผ่านโดยอัตโนมัติ ชุดข้อมูลประกอบด้วยสองสามพันคะแนนโดยมี 1-10 เซกเมนต์และฉันรู้จำนวนเซกเมนต์ นี่คือตัวอย่างของสิ่งที่ฉันต้องการทำโดยอัตโนมัติ
18 algorithms 

5
ฉันจะเปรียบเทียบภาพสองภาพจากกล้องและบอกได้ว่ามีความแตกต่างเพียงพอในการตรวจจับการเคลื่อนไหวหรือไม่?
ฉันต้องการใช้โทรศัพท์ของฉันเป็นระบบกล้องวงจรปิดเพื่อควบคุมห้องในบ้านของฉันและแสดงการแจ้งเตือนเมื่อมีบางอย่างกำลังเคลื่อนไหว สำหรับตอนนี้สิ่งที่ฉันประสบความสำเร็จในการทำคือการจับภาพทุกนาทีและอัพโหลดผ่านสคริปต์ PHP ไปยังเซิร์ฟเวอร์ของฉัน ตอนนี้ฉันต้องการที่จะเปรียบเทียบภาพปัจจุบันและภาพที่ 1 นาทีที่ผ่านมาและตรวจสอบว่ามีคนเข้ามาในห้อง ดังนั้นโดยทั่วไปฉันจะต้องเปรียบเทียบความแตกต่างของพิกเซลในภาพ (แต่ต้องคำนึงว่าเมฆอาจทักทายและเปลี่ยนความสว่างในช่วงเวลาหนึ่งนาที) ใครบ้างมีเบาะแสเกี่ยวกับวิธีการที่จะประสบความสำเร็จหรือว่ามีเอกสารให้อ่าน?

2
ช่องว่างภายในศูนย์โดเมน - การดูแลเป็นพิเศษของ X [N / 2]
สมมติว่าเราต้องการแก้ไขสัญญาณเป็นระยะด้วยจำนวนตัวอย่างที่สม่ำเสมอ (เช่น N = 8) โดยการเติมเต็มศูนย์ในโดเมนความถี่ ให้ DFT X=[A,B,C,D,E,F,G,H] ตอนนี้ขอแผ่นมันถึง 16 Yตัวอย่างที่จะให้ ทุกตัวอย่างในตำราและกวดวิชาออนไลน์ที่ฉันได้เห็นแทรกศูนย์ที่ให้ (จากนั้นเป็นสัญญาณที่ถูกแก้ไข)[Y4...Y11] Y=[2A,2B,2C,2D,0,0,0,0,0,0,0,0,2E,2F,2G,2H]y = idft(Y) ทำไมไม่ใช้แทน Y=[2A,2B,2C,2D,E,0,0,0,0,0,0,0,E,2F,2G,2H]? เท่าที่ฉันสามารถบอกได้ (ความรู้ทางคณิตศาสตร์ของฉันมี จำกัด ): มันลดพลังงานทั้งหมด มันทำให้มั่นใจได้ว่าหากxเป็นมูลค่าที่แท้จริงดังนั้นจึงเป็นy yยังคงตัดกันxทุกจุดตัวอย่างตามที่ต้องการ (ฉันคิดว่านี่เป็นความจริงสำหรับทุกpที่Y=[2A,2B,2C,2D,pE,0,0,0,0,0,0,0,(2-p)E,2F,2G,2H]) เหตุใดจึงไม่ทำเช่นนี้? แก้ไข : xไม่จำเป็นต้องเป็นมูลค่าจริงหรือ จำกัด วง

2
การปรับขนาดภาพมีผลต่อเมทริกซ์กล้องภายในอย่างไร
ฉันมีเมทริกซ์กล้อง (ฉันรู้ว่าพารามิเตอร์ทั้งภายในและภายนอก) เป็นที่รู้จักสำหรับภาพขนาด HxW (ฉันใช้เมทริกซ์นี้สำหรับการคำนวณบางอย่างที่ฉันต้องการ) ฉันต้องการใช้ภาพที่เล็กลงพูดว่า: (ครึ่งหนึ่งของต้นฉบับ) ฉันต้องทำการเปลี่ยนแปลงอะไรกับเมทริกซ์เพื่อรักษาความสัมพันธ์เดิมH2× W2H2×W2\frac{H}{2}\times \frac{W}{2} ฉันมีเป็นพารามิเตอร์ที่แท้จริง ( การหมุนR , Tและการแปล)KKKRRRTTT ลูกเบี้ยว= K⋅ [ R T]ลูกเบี้ยว=K⋅[RT]\text{cam} = K \cdot [R T] K= ⎛⎝⎜ax000aY0ยู0โวลต์01⎞⎠⎟K=(ax0ยู00aYโวลต์0001)K = \left( \begin{array}&a_x &0 &u_0\\0 &a_y &v_0 \\ 0 &0 &1\end{array} \right) คือ 3 * 3 ฉันคิดว่าการคูณ a x , a , y …

2
เหตุใดการรั่วไหลของสเปกตรัมจึงเกิดขึ้นใน FFT
ฉันลอง googling และ wikipedia แล้ว แต่ฉันยังไม่ได้รับคำตอบนอกเหนือจาก 'เพราะความถี่ของสัญญาณอินพุตอยู่ระหว่างสองถังขยะ' ฉันเข้าใจว่านี่คือเหตุผล แต่สิ่งที่ฉันไม่เข้าใจคือสาเหตุที่การรั่วไหลดูเหมือนว่าจะขยายไปยังถังขยะติดกันหลายแห่งแทนที่จะเป็นถังขยะที่อยู่ติดกันเพียงถังเดียว เพื่อแสดงสิ่งที่ฉันกำลังพูดถึงนี่คือข้อมูลจำลอง (รหัสที่ท้ายโพสต์): ด้านบนคือสเปกตรัม FFT (พล็อตในระดับบันทึก) ของคลื่นไซน์ของความถี่ 10 อัตราการสุ่มตัวอย่างคือหนึ่งและจำนวนตัวอย่างคือ 100 กราฟได้รับการเลื่อน FFT เห็นได้ชัดว่ามีเพียงจุดสูงสุดที่ bin 10 และส่วนที่เหลืออยู่ในลำดับของข้อผิดพลาดเชิงตัวเลขหรือที่นั่น นี่คือสเปกตรัมความถี่ที่ความถี่ที่สร้างขึ้นที่ 10.1 เห็นได้ชัดว่ามี 'การรั่วไหล' ในถังขยะมากกว่าถังขยะที่อยู่ติดกันทันที นี่คือโครงเรื่องสำหรับความถี่ 10.5 คำถาม:ทำไมมีการรั่วไหลนี้และทำไมมันถึงขยายไปยังถังขยะอื่นทั้งหมดแทนที่จะเป็นถังขยะที่อยู่ติดกัน? รหัสสำหรับทุกคนที่สนใจ (รหัสหลาม) import numpy as np import matplotlib.pyplot as plt xFreq = 10.5 xSize = 100.0 xPeriod = …

3
ความแตกต่างระหว่างตัวกรองเชิงเส้นและไม่ใช่เชิงเส้นคืออะไร?
ตัวกรองค่าเฉลี่ยเรียกว่าเป็นตัวกรองแบบเชิงเส้นและตัวกรองแบบมัธยฐานเรียกว่าเป็นตัวกรองแบบไม่เชิงเส้นได้อย่างไร ฉันเข้าใจว่าตัวกรองค่าเฉลี่ยและค่ามัธยฐานทำงานอย่างไร แต่ฉันไม่สามารถเกี่ยวข้องกับคำเชิงเส้นและไม่เชิงเส้นได้ โปรดอธิบายฉันด้วยตัวอย่าง

2
สัญญาณคงที่และไม่หยุดนิ่ง?
มีคำจำกัดความทางเทคนิคที่ดีในตำราและวิกิพีเดีย แต่ฉันมีเวลายากที่จะเข้าใจว่าอะไรคือความแตกต่างของสัญญาณนิ่งและไม่หยุดนิ่งในทางปฏิบัติ? สัญญาณใดที่ไม่ต่อเนื่องต่อไปนี้หยุดนิ่ง ทำไม?: เสียงสีขาว - ใช่ (ตามข้อมูลที่เป็นไปได้ทั้งหมดที่พบ) เสียงรบกวนแบบสี - ใช่ (ตาม เสียงสี: เครื่องเขียนหรือไม่เคลื่อนที่ ) เจี๊ยบ (ไซนัสเปลี่ยนความถี่) -? ไซนัส - ผลรวมของไซนัสหลายช่วงเวลาและช่วงกว้างที่แตกต่างกัน - คลื่นไฟฟ้าหัวใจ EEG PPT และที่คล้ายกัน -? เอาท์พุทระบบวุ่นวาย (แม็กกี้แก้วแผนที่โลจิสติก) -? บันทึกอุณหภูมิภายนอก -? บันทึกการพัฒนาคู่สกุลเงินตลาด forex -? ขอขอบคุณ.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.