มูลค่าที่คาดหวังของความสัมพันธ์ปลอม


12

เราวาดตัวอย่างแต่ละขนาดอิสระจากปกติการจัดจำหน่ายn ( μ , σ 2 )Nn(μ,σ2)

จากตัวอย่างเราเลือก 2 ตัวอย่างที่มีความสัมพันธ์แบบเพียร์สันสูงสุด (แบบสัมบูรณ์) กับแต่ละอื่น ๆN

ค่าที่คาดหวังของความสัมพันธ์นี้คืออะไร?

ขอบคุณ [PS นี่ไม่ใช่การบ้าน]


2
(+1) มันจะทำให้คำถามการบ้านที่ค่อนข้างท้าทาย :-) คุณต้องการคำตอบทั่วไปหรือคุณ (อาจ) มุ่งความสนใจไปที่ค่าเฉพาะของหรือหรือไม่? ตัวอย่างเช่นอาจเป็นไปได้ที่จะพัฒนาการประมาณที่ดีเมื่อมีขนาดใหญ่กว่ามาก จะต้องใช้การประมาณอื่นในกรณีอื่น n n NNnnN
whuber

1
ฉันหวังว่าจะได้คำตอบทั่วไป แต่ข้อสันนิษฐานที่ไม่มีทางตกลงได้! สำหรับค่าเฉพาะของและมันจะไม่น่าสนใจเท่าที่ฉันสามารถดูกรณีเฉพาะโดยการจำลอง (นั่นคือสิ่งที่ฉันทำในขณะนี้) แต่มันอาจจะเป็นที่น่าสนใจ N nn>>NNn
P Sellaz

1
ฉันคิดว่าวิธีแก้ปัญหาทั่วไปของยูทิลิตี้จริง ๆ อาจไม่น่าเป็นไปได้ แต่ฉันอาจเข้าใจผิด มันค่อนข้างเกี่ยวข้องกับปัญหาเปิดที่อินเทอร์เฟซของเรขาคณิตและพีชคณิตเชิงเส้น ในแอปพลิเคชันความต้องการข้อมูลเกี่ยวกับปริมาณดังกล่าวเกิดขึ้นตัวอย่างเช่นในการตรวจจับที่ถูกบีบอัด
พระคาร์ดินัล

1
FWIW นี่คือผลลัพธ์ของการจำลองที่ฉันเพิ่งเรียกใช้: ใช้ Normal (0,1) ฉันพบว่าความสัมพันธ์เฉลี่ย (การจำลองมากกว่า 1,000 ครั้ง) และจำนวนตัวอย่างประมาณโดยสัมพันธ์กับ สำหรับและโดยใช้โมเดลการถดถอยเชิงเส้น แบบจำลองและการวินิจฉัยตามปกติค่อนข้างดี ฉันยังพบว่าความสัมพันธ์เฉลี่ยมีการกระจายโดยทั่วไปประมาณ (แม้ว่าจะเอียงเล็กน้อยเล็กน้อย) N ρ = 0.025 + 0.113 ln ( N ) - 0.008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

คำตอบ:


9

ฉันพบบทความต่อไปนี้ซึ่งจัดการปัญหานี้: Jiang, Tiefeng (2004) การแจกแจงแบบเชิงกำกับของรายการที่ใหญ่ที่สุดของเมทริกซ์สหสัมพันธ์ตัวอย่าง พงศาวดารของความน่าจะเป็นประยุกต์, 14 (2), 865-880

เจียงแสดงการกระจายเชิงสถิติของสถิติโดยที่คือความสัมพันธ์ระหว่าง th และ th เวกเตอร์สุ่มที่มีความยาว (กับ ) คือLn=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
โดยที่สันนิษฐานว่ามีอยู่ในกระดาษและเป็นฟังก์ชันของ .a=limnn/NNn

เห็นได้ชัดว่าผลลัพธ์นี้มีไว้สำหรับการแจกแจงการกระจายใด ๆ ที่มีช่วงเวลาที่ จำกัด อย่างเพียงพอ ( แก้ไข:ดูความคิดเห็นของ @ cardinal ด้านล่าง) เจียงชี้ให้เห็นว่านี่คือการกระจายมูลค่าที่มากที่สุดของ Type I ที่ตั้งและสเกลต่างๆ

σ=2,μ=2log(1a28π).

ค่าที่คาดหวังของการแจกแจง Type-I EV คือโดยที่หมายถึงค่าคงที่ของออยเลอร์ อย่างไรก็ตามตามที่ระบุไว้ในความคิดเห็นการบรรจบกันของการแจกแจงไม่ได้รับประกันการบรรจบกันของวิธีการและการ จำกัด การกระจายμ+σγγ

ถ้าเราสามารถแสดงผลเช่นในกรณีนี้แล้วค่าคาดว่า asymptotic ของจะเป็นnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

โปรดสังเกตว่าสิ่งนี้จะให้ค่าที่คาดหวังเชิงแอมป์ของความสัมพันธ์กำลังสองที่ใหญ่ที่สุดในขณะที่คำถามถามถึงค่าคาดหวังของความสัมพันธ์สัมบูรณ์ที่ใหญ่ที่สุด ดังนั้นไม่ 100% มี แต่ปิด

ฉันทำแบบจำลองสั้น ๆ ที่ทำให้ฉันคิดว่า 1) มีปัญหากับการจำลองของฉัน (น่าจะเป็น), 2) มีปัญหาเกี่ยวกับการถอดความ / พีชคณิต (หรือน่าจะ) หรือ 3) การประมาณไม่ถูกต้องสำหรับ ค่าของและฉันใช้ บางที OP อาจชั่งน้ำหนักด้วยผลการจำลองโดยใช้การประมาณนี้nN


2
และกัน: ฉันชอบคำถามนี้จริง ๆ - ฉันเคยสงสัยเกี่ยวกับคำถามนี้มาก่อน ฉันรู้สึกประหลาดใจกับการเชื่อมต่อกับการแจกจ่าย Type-I - ฉันพบว่ามันเจ๋งมาก ผมแค่หวังว่าฉันเข้าใจคณิตศาสตร์ที่นำไปสู่มัน ...
jmtroos

1
(+1) หาได้แล้ว !! ฉันคิดว่าเราสามารถสันนิษฐานได้ว่าสแควร์รูทเชิงบวกของนี้เทียบเท่ากับค่าที่คาดหวังของความสัมพันธ์แบบสัมบูรณ์ที่ใหญ่ที่สุด? ในการแสดงออกของคุณสำหรับความคาดหวังเราไม่สามารถนำทุกส่วนที่เกี่ยวข้องกับเพื่อให้ได้ผลลัพธ์: ? อย่างไรก็ตามฉันได้เปรียบเทียบสิ่งนี้กับแบบจำลองของฉันแล้วและมันก็ค่อนข้างใกล้! รหัส R ของฉันคือเลอะเทอะจริงๆดังนั้นผมจะพยายามเป็นระเบียบเรียบร้อยขึ้นในภายหลังในวันนี้หรือวันพรุ่งนี้และโพสต์ ... n E [ L 2 n ] = 1Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

BTW กระดาษสามารถใช้ได้โดยตรงจากที่นี่projecteuclid.org/DPubS/Repository/1.0/ …
P Sellaz

3
(+1) นี้เป็นกระดาษที่ดีมากและฉันได้ไขมันต่ำเพียง แต่เราจะต้องมีความระมัดระวังเล็ก ๆ น้อย ๆที่นี่ ข้อสังเกตบางประการ: ( 1 ) ผลลัพธ์สำหรับระบอบการปกครองดังนั้นขนาดของเวกเตอร์จะต้องเพิ่มขึ้นอย่างเป็นสัดส่วนกับจำนวนของเวกเตอร์ภายใต้การพิจารณาผลเหล่านี้ ที่จะถือ ( 2 ) แม้ในกรณีนี้ผลลัพธ์ไม่ได้มีไว้สำหรับการแจกจ่าย "ใด ๆ " จริง ๆ แล้วเงื่อนไขในบทความต้องการให้ตัวแปรสุ่มเป็น "ขอบเขตที่อธิบายได้เกือบ" ในแง่ที่ว่าเราจำเป็นต้องใช้ช่วงเวลาที่ 30 ในการ จำกัด ! (ต่อ)n/pγ(0,)
สำคัญ

3
(ต่อ) ( 3 ) การบรรจบกันของการแจกแจงไม่รับประกันการบรรจบกันของค่าเฉลี่ยของการกระจายตัวแบบ จำกัด เพื่อที่เรามักใช้สิ่งที่คล้ายกับ integrability เครื่องแบบของชุด\} สิ่งนี้ไม่ได้แสดงในเอกสารและเนื่องจากการจัดการกับการแจกแจงที่มีมูลค่ามากอาจไม่เป็นความจริง หนึ่งในตัวอย่างที่ชื่นชอบของปรากฏการณ์นี้คือลำดับของตัวแปรสุ่มที่มาบรรจบกันในการกระจายไปยังแต่วิธีการนี้สามารถทำให้มาบรรจบกับค่าคงที่บวกใด ๆ ที่เลือก χ 2 1{Ln}χ12
พระคาร์ดินัล

2

นอกเหนือจากคำตอบที่ได้รับจาก @jmtroos ด้านล่างเป็นรายละเอียดของการจำลองของฉันและการเปรียบเทียบกับการได้มาของ @ jmtroos จากความคาดหวังจากเจียง (2004)นั่นคือ:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

ค่าของความคาดหวังนี้ดูเหมือนจะสูงกว่าค่าจำลองสำหรับขนาดเล็กและด้านล่างสำหรับขนาดใหญ่และพวกเขาดูเหมือนจะแตกต่างกันเล็กน้อยเมื่อเพิ่มขึ้น อย่างไรก็ตามความแตกต่างลดลงสำหรับการเพิ่มตามที่เราคาดหวังว่าเป็นกระดาษที่อ้างว่าการกระจายเป็นซีมโทติค ฉันได้พยายามต่างๆ[100,500] การจำลองการใช้งานด้านล่างnฉันค่อนข้างใหม่สำหรับ R ดังนั้นคำแนะนำหรือคำแนะนำใด ๆ ที่ทำให้รหัสของฉันดีขึ้นจะได้รับการต้อนรับอย่างอบอุ่นN N n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

ดูความคิดเห็นของฉันต่อคำตอบอื่น ๆ ซึ่งอาจช่วยหรืออธิบายความขัดแย้งที่คุณทราบ
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.