เราวาดตัวอย่างแต่ละขนาดอิสระจากปกติการจัดจำหน่ายn ( μ , σ 2 )
จากตัวอย่างเราเลือก 2 ตัวอย่างที่มีความสัมพันธ์แบบเพียร์สันสูงสุด (แบบสัมบูรณ์) กับแต่ละอื่น ๆ
ค่าที่คาดหวังของความสัมพันธ์นี้คืออะไร?
ขอบคุณ [PS นี่ไม่ใช่การบ้าน]
เราวาดตัวอย่างแต่ละขนาดอิสระจากปกติการจัดจำหน่ายn ( μ , σ 2 )
จากตัวอย่างเราเลือก 2 ตัวอย่างที่มีความสัมพันธ์แบบเพียร์สันสูงสุด (แบบสัมบูรณ์) กับแต่ละอื่น ๆ
ค่าที่คาดหวังของความสัมพันธ์นี้คืออะไร?
ขอบคุณ [PS นี่ไม่ใช่การบ้าน]
คำตอบ:
ฉันพบบทความต่อไปนี้ซึ่งจัดการปัญหานี้: Jiang, Tiefeng (2004) การแจกแจงแบบเชิงกำกับของรายการที่ใหญ่ที่สุดของเมทริกซ์สหสัมพันธ์ตัวอย่าง พงศาวดารของความน่าจะเป็นประยุกต์, 14 (2), 865-880
เจียงแสดงการกระจายเชิงสถิติของสถิติโดยที่คือความสัมพันธ์ระหว่าง th และ th เวกเตอร์สุ่มที่มีความยาว (กับ ) คือ
เห็นได้ชัดว่าผลลัพธ์นี้มีไว้สำหรับการแจกแจงการกระจายใด ๆ ที่มีช่วงเวลาที่ จำกัด อย่างเพียงพอ ( แก้ไข:ดูความคิดเห็นของ @ cardinal ด้านล่าง) เจียงชี้ให้เห็นว่านี่คือการกระจายมูลค่าที่มากที่สุดของ Type I ที่ตั้งและสเกลต่างๆ
ค่าที่คาดหวังของการแจกแจง Type-I EV คือโดยที่หมายถึงค่าคงที่ของออยเลอร์ อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นการบรรจบกันของการแจกแจงไม่ได้รับประกันการบรรจบกันของวิธีการและการ จำกัด การกระจาย
ถ้าเราสามารถแสดงผลเช่นในกรณีนี้แล้วค่าคาดว่า asymptotic ของจะเป็น
โปรดสังเกตว่าสิ่งนี้จะให้ค่าที่คาดหวังเชิงแอมป์ของความสัมพันธ์กำลังสองที่ใหญ่ที่สุดในขณะที่คำถามถามถึงค่าคาดหวังของความสัมพันธ์สัมบูรณ์ที่ใหญ่ที่สุด ดังนั้นไม่ 100% มี แต่ปิด
ฉันทำแบบจำลองสั้น ๆ ที่ทำให้ฉันคิดว่า 1) มีปัญหากับการจำลองของฉัน (น่าจะเป็น), 2) มีปัญหาเกี่ยวกับการถอดความ / พีชคณิต (หรือน่าจะ) หรือ 3) การประมาณไม่ถูกต้องสำหรับ ค่าของและฉันใช้ บางที OP อาจชั่งน้ำหนักด้วยผลการจำลองโดยใช้การประมาณนี้
นอกเหนือจากคำตอบที่ได้รับจาก @jmtroos ด้านล่างเป็นรายละเอียดของการจำลองของฉันและการเปรียบเทียบกับการได้มาของ @ jmtroos จากความคาดหวังจากเจียง (2004)นั่นคือ:
ค่าของความคาดหวังนี้ดูเหมือนจะสูงกว่าค่าจำลองสำหรับขนาดเล็กและด้านล่างสำหรับขนาดใหญ่และพวกเขาดูเหมือนจะแตกต่างกันเล็กน้อยเมื่อเพิ่มขึ้น อย่างไรก็ตามความแตกต่างลดลงสำหรับการเพิ่มตามที่เราคาดหวังว่าเป็นกระดาษที่อ้างว่าการกระจายเป็นซีมโทติค ฉันได้พยายามต่างๆ[100,500] การจำลองการใช้งานด้านล่างnฉันค่อนข้างใหม่สำหรับ R ดังนั้นคำแนะนำหรือคำแนะนำใด ๆ ที่ทำให้รหัสของฉันดีขึ้นจะได้รับการต้อนรับอย่างอบอุ่นN N n n ∈ [ 100 , 500 ] n = 200
set.seed(1)
ns <- 500
# number of simulations for each N
n <- 200
# length of each vector
mu <- 0
sigma <- 1
# parameters for the distribution we simulate from
par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns
y<-vector(mode = "numeric")
#vector to store the mean correlations
k<- 1
#index for y
for (N in x) {
# loop over a range of N
dt <- matrix(nrow=n,ncol=N)
J <- vector(mode = "numeric")
# vector to store the simulated largest absolute
# correlations for each N
for (j in 1:ns) {
# for each N, simulated ns times
for (i in 1:N) {
dt[,i] <- rnorm(n,mu,sigma)
}
# perform the simulation
M<-matrix(cor(dt),nrow=N,ncol=N)
m <- M
diag(m) <- NA
J[j] <- max(abs(m), na.rm=TRUE)
# obtain the largest absolute correlation
# these 3 lines came from stackoverflow
}
hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4)))
y[k]<-mean(J)
k=k+1
}
lm1 <- lm(y~log(x))
summary(lm1)
logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations
# Jiang 2004 paper, computation:
gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)
plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation