สิ่งที่น่าสนใจมากเกี่ยวกับผลลัพธ์นี้คือดูเหมือนว่าการกระจายของสัมประสิทธิ์สหสัมพันธ์ มีเหตุผล
สมมติว่าเป็นค่าปกติ bivariate ที่ไม่มีสหสัมพันธ์และความแปรปรวนทั่วไปสำหรับทั้งสองตัวแปร วาดตัวอย่าง IIDy_n) มันเป็นที่รู้จักกันดีและสร้างขึ้นอย่างง่ายดายในเชิงเรขาคณิต (เช่นเดียวกับฟิชเชอร์เมื่อหนึ่งศตวรรษก่อน) ว่าการกระจายตัวของสัมประสิทธิ์สหสัมพันธ์ตัวอย่างσ 2 ( x 1 , y 1 ) , … , ( x n , y n )(X,Y)σ2(x1,y1),…,(xn,yn)
r=∑ni=1(xi−x¯)(yi−y¯)(n−1)SxSy
คือ
f(r)=1B(12,n2−1)(1−r2)n/2−2, −1≤r≤1.
(ที่นี่ตามปกติและเป็นค่าเฉลี่ยตัวอย่างและและเป็นรากที่สองของการประมาณค่าความแปรปรวนแบบไม่เอนเอียง) คือฟังก์ชันเบต้าซึ่งˉ y SxSyBx¯y¯SxSyB
1B ( 1)2, n2- 1 )= Γ ( n - 12)Γ ( 12) Γ ( n2- 1 )= Γ ( n - 12)π--√Γ ( n2- 1 ).(1)
ในการคำนวณเราอาจใช้ความไม่แปรเปลี่ยนของมันภายใต้การหมุนในรอบเส้นที่สร้างโดยพร้อมกับความแปรปรวนของการกระจายตัวของตัวอย่างภายใต้การหมุนเดียวกัน และเลือกเป็นเวกเตอร์หน่วยใดก็ได้ที่มีผลรวมองค์ประกอบเป็นศูนย์ หนึ่งเวกเตอร์ดังกล่าวเป็นสัดส่วนกับ-1) ค่าเบี่ยงเบนมาตรฐานคือR n ( 1 , 1 , … , 1 ) y i / S y v = ( n - 1 , - 1 , … , - 1 )RRn( 1 , 1 , … , 1 )Yผม/ เอสYv=(n−1,−1,…,−1)
Sโวลต์= 1n - 1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
ดังนั้นต้องมีการแจกแจงแบบเดียวกับr
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
ดังนั้นสิ่งที่เราต้องทำคือ rescaleเพื่อค้นหาการกระจายตัวของ :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
สำหรับ{n}} สูตร (1) แสดงสิ่งนี้เหมือนกับคำถาม|z|≤n−1n√
ไม่มั่นใจอย่างสมบูรณ์? นี่คือผลลัพธ์ของการจำลองสถานการณ์นี้ 100,000 ครั้ง (ด้วยที่การแจกแจงสม่ำเสมอ)n=4
ครั้งแรกที่แปลงกราฟค่าสัมประสิทธิ์สหสัมพันธ์ของในขณะที่แปลง histogram สองค่าสัมประสิทธิ์สหสัมพันธ์ของสำหรับการสุ่มเลือก vectorที่คงที่สำหรับการวนซ้ำทั้งหมด พวกเขาทั้งสองเหมือนกัน พล็อต QQ- ทางด้านขวาเป็นการยืนยันว่าการแจกแจงเหล่านี้เหมือนกัน( x i , v i ) , i = 1 , … , 4 ) v i(xi,yi),i=1,…,4(xi,vi),i=1,…,4) vi
นี่คือR
รหัสที่สร้างพล็อต
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
การอ้างอิง
ชาวประมง RA, ความถี่การกระจายของค่าสัมประสิทธิ์สหสัมพันธ์ในตัวอย่างจากประชากรที่มีขนาดใหญ่ไปเรื่อย ๆ Biometrika , 10 , 507 ดูหัวข้อ 3 (อ้างถึงในทฤษฎีขั้นสูงทางสถิติของเคนดัลล์ , 5 เอ็ด, มาตรา 16.24)