การอยู่ตรงกลางหมายถึงการลดความแปรปรวนร่วมหรือไม่?


11

สมมติว่าฉันมีตัวแปรสุ่มสองตัวที่ไม่ขึ้นกับตัวเองและฉันต้องการลดความแปรปรวนร่วมระหว่างพวกเขาให้มากที่สุดเท่าที่จะเป็นไปได้โดยไม่ต้องสูญเสีย "สัญญาณ" มากเกินไปหมายความว่าการช่วยเหลือจากศูนย์กลางหรือไม่ ฉันอ่านบางที่หมายถึงการอยู่ตรงกลางลดความสัมพันธ์โดยปัจจัยสำคัญดังนั้นฉันคิดว่ามันควรทำเช่นเดียวกันเพื่อความแปรปรวนร่วม

คำตอบ:


30

ถ้าXและYเป็นตัวแปรสุ่มและaและเป็นค่าคงที่ดังนั้น

Cov(X+a,Y+b)=E[(X+aE[X+a])(Y+bE[Y+b])]=E[(X+aE[X]E[a])(Y+bE[Y]E[b])]=E[(X+aE[X]a)(Y+-E[Y]-)]=E[(X-E[X])(Y-E[Y])]=Cov(X,Y).
การจัดกึ่งกลางเป็นกรณีพิเศษa=-E[X]และ=-E[Y]ดังนั้นการอยู่ตรงกลางจะไม่ส่งผลต่อความแปรปรวนร่วม


นอกจากนี้เนื่องจากความสัมพันธ์ถูกกำหนดเป็น

Corr(X,Y)=Cov(X,Y)var(X)var(Y),
เราจะเห็นว่า
Corr(X+a,Y+)=Cov(X+a,Y+)var(X+a)var(Y+)=Cov(X,Y)var(X)var(Y),
อื่น ๆ โดยเฉพาะอย่างยิ่งความสัมพันธ์ไม่ได้รับผลกระทบจากศูนย์กลางอย่างใดอย่างหนึ่ง


นั่นคือเรื่องราวของประชากร รุ่นตัวอย่างเหมือนกัน: ถ้าเราใช้

Cov^(X,Y)=1nΣผม=1n(Xผม-1nΣJ=1nXJ)(Yผม-1nΣJ=1nYJ)
เป็นค่าประมาณความแปรปรวนร่วมระหว่างXและYจากตัวอย่างที่จับคู่(X1,Y1),...,(Xn,Yn), จากนั้น
Cov^(X+a,Y+)=1nΣผม=1n(Xผม+a-1nΣJ=1n(XJ+a))(Yผม+-1nΣJ=1n(YJ+))=1nΣผม=1n(Xผม+a-1nΣJ=1nXJ-nna)(Yผม+-1nΣJ=1nYJ-nn)=1nΣผม=1n(Xผม-1nΣJ=1nXJ)(Yผม-1nΣJ=1nYJ)=Cov^(X,Y)
a


ขอบคุณสำหรับคำตอบอย่างละเอียด หมายความว่าสำหรับความแปรปรวนร่วมตัวอย่างขนาดของกลุ่มตัวอย่างไม่มีผลกระทบใด ๆ คือการลดขนาดตัวอย่างไม่ได้ลดความแปรปรวนร่วมตัวอย่างหรือไม่
lvdp

3
@lvdp That should probably be a separate question.
Acccumulation

A reduced sample size can only come with a different sample. A different sample could show different covariance, therefore. But as sample covariance is defined as an average, sample size is scaled for in principle.
Nick Cox

5

The definition of the covariance of X and Y is E[(XE[X])(YE[Y])]. The expression XE[X] in that formula is the centered version of X. So we already center Xเมื่อเราใช้ความแปรปรวนร่วมและการอยู่ตรงกลางเป็นตัวดำเนิน idempotent; เมื่อตัวแปรอยู่กึ่งกลางการใช้กระบวนการจัดกึ่งกลางครั้งต่อไปจะไม่เปลี่ยน หากสูตรไม่ได้ใช้ตัวแปรรุ่นที่อยู่ตรงกลางแล้วจะมีลักษณะพิเศษแปลก ๆ เช่นความแปรปรวนร่วมระหว่างอุณหภูมิและตัวแปรอื่นที่แตกต่างกันขึ้นอยู่กับว่าเราวัดอุณหภูมิในเซลเซียสหรือเคลวิน


3

"ที่ไหนสักแห่ง" มีแนวโน้มที่จะเป็นแหล่งที่ไม่น่าเชื่อถือมากกว่า ...

แปรปรวน / ความสัมพันธ์จะถูกกำหนดด้วยตรงกลางอย่างชัดเจน หากคุณไม่ได้อยู่ตรงกลางของข้อมูลแสดงว่าคุณไม่ได้คำนวณความแปรปรวนร่วม / ความสัมพันธ์ (แม่นยำ: สหสัมพันธ์เพียร์สัน)

ความแตกต่างที่สำคัญคือไม่ว่าคุณจะมุ่งเน้นไปที่โมเดลเชิงทฤษฎี (เช่นค่าที่คาดหวังควรจะเป็น 0) หรือตามข้อมูล (ค่าเฉลี่ยเลขคณิต) มันง่ายที่จะเห็นว่าค่าเฉลี่ยเลขคณิตจะให้ความแปรปรวนน้อยกว่าศูนย์อื่น

อย่างไรก็ตามความแปรปรวนร่วมที่น้อยกว่าไม่ได้บ่งบอกถึงความสัมพันธ์ที่มีขนาดเล็กลงหรือตรงกันข้าม สมมติว่าเรามีข้อมูล X = (1,2) และ Y = (2,1) มันง่ายที่จะเห็นว่าด้วยการคำนวณเลขศูนย์ซึ่งจะทำให้เกิดความสัมพันธ์เชิงลบอย่างสมบูรณ์แบบในขณะที่ถ้าเรารู้ว่ากระบวนการสร้างมีค่าเฉลี่ย 0 ข้อมูลนั้นมีความสัมพันธ์เชิงบวกจริง ๆ ดังนั้นในตัวอย่างนี้เรากำลังอยู่ตรงกลาง - แต่ด้วยค่าคาดหวังเชิงทฤษฎีที่ 0

สิ่งนี้สามารถเกิดขึ้นได้ง่าย พิจารณาว่าเรามีเซ็นเซอร์ขนาด 11x11 โดยมีหมายเลขเซลล์ -5 ถึง +5 แทนที่จะใช้ค่าเฉลี่ยเลขคณิตมันทำให้รู้สึกถึงการใช้ "ทางกายภาพ" หมายถึงอาร์เรย์เซ็นเซอร์ของเราที่นี่เมื่อมองหาความสัมพันธ์ของเหตุการณ์เซ็นเซอร์ (ถ้าเราแจกแจงเซลล์ 0 ถึง 10 เราจะใช้ 5 เป็นค่าคงที่, และเราจะได้ผลลัพธ์เหมือนกันดังนั้นตัวเลือกการจัดทำดัชนีจะหายไปจากการวิเคราะห์ - ดี)


ขอบคุณ @ Anony-Mousse ความแปรปรวนตัวอย่างจะขึ้นอยู่กับขนาดตัวอย่างหรือไม่ เช่นขนาดตัวอย่างที่เล็กลงจะให้ความแปรปรวนร่วมน้อยลง (ก่อนที่จะอยู่กึ่งกลาง)
lvdp

1
ขึ้นอยู่กับตัวอย่างอย่างชัดเจน โดยเฉลี่ย - ฉันไม่รู้ ฉันคาดว่ากลุ่มตัวอย่างขนาดเล็กจะมีความแปรปรวนมากขึ้นส่วนใหญ่ดังนั้นอาจมีค่ามากขึ้น แต่นั่นเป็นเพียงสัญชาตญาณ
แล้ว - Anony-Mousse เมื่อ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.