คณิตศาสตร์ที่จำเป็นเพื่อให้ได้ผลที่แน่นอนจะยุ่ง แต่เราสามารถได้รับค่าที่แน่นอนสำหรับการคาดหวังSquaredค่าสัมประสิทธิ์สหสัมพันธ์ค่อนข้างลำบาก มันจะช่วยอธิบายว่าทำไมค่าใกล้พร้อมแสดงขึ้นและทำไมการเพิ่มความยาวnของสุ่มเดินจะไม่เปลี่ยนแปลงสิ่งต่างๆ1/2n
มีความเป็นไปได้ที่จะเกิดความสับสนเกี่ยวกับคำศัพท์มาตรฐาน ความสัมพันธ์แบบสัมบูรณ์ที่อ้างถึงในคำถามพร้อมกับสถิติที่สร้างขึ้นมา - ความแปรปรวนและความแปรปรวนร่วม - เป็นสูตรที่เราสามารถนำไปใช้กับคู่ของการรับรู้แบบสุ่มใด ๆ คำถามเกี่ยวข้องกับสิ่งที่เกิดขึ้นเมื่อเราดูการรับรู้ที่เป็นอิสระมากมาย เพื่อที่เราจะต้องใช้ความคาดหวังมากกว่ากระบวนการสุ่มเดิน
(แก้ไข)
ก่อนที่เราจะดำเนินการต่อฉันต้องการแบ่งปันข้อมูลเชิงลึกเกี่ยวกับกราฟิกกับคุณ คู่ของการสุ่มแบบอิสระเป็นการสุ่มแบบสองมิติ เราสามารถวางแผนเส้นทางที่ขั้นตอนจากกัน( X T , Y T )เพื่อX T + 1 , Y T + 1 หากเส้นทางนี้มีแนวโน้มลดลง (จากซ้ายไปขวาพล็อตบนแกน XY ปกติ) จากนั้นเพื่อศึกษาค่าสัมบูรณ์ของสหสัมพันธ์เราจะลบล้างค่าYทั้งหมด วางแผนเดินบนแกนขนาดเพื่อให้Xและ(X,Y)( Xเสื้อ, วายเสื้อ)Xt + 1, วายt + 1YXค่าเท่ากับค่าเบี่ยงเบนมาตรฐานและเติมอย่างน้อยสี่เหลี่ยมพอดีของ YไปX ความชันของเส้นเหล่านี้จะเป็นค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์ซึ่งอยู่ระหว่าง 0ถึง 1เสมอYYX01
รูปนี้แสดงการเดินครั้งแต่ละความยาว960 (พร้อมความแตกต่างปกติมาตรฐาน) วงกลมเล็ก ๆ ที่เปิดอยู่ทำเครื่องหมายจุดเริ่มต้นของพวกเขา วงกลมสีเข้มทำเครื่องหมายตำแหน่งสุดท้ายของพวกเขา15960
ลาดเหล่านี้มีแนวโน้มที่จะค่อนข้างใหญ่ Scatterplots แบบสุ่มที่สมบูรณ์แบบในหลาย ๆ จุดนี้จะมีความลาดชันใกล้กับศูนย์เสมอ หากเราต้องอธิบายรูปแบบที่เกิดขึ้นที่นี่เราอาจพูดได้ว่าการเดินแบบสุ่ม 2D ส่วนใหญ่ค่อย ๆ โยกย้ายจากที่หนึ่งไปอีกที่หนึ่ง (สถานที่เหล่านี้ไม่จำเป็นต้องเป็นจุดเริ่มต้นและจุดสิ้นสุดของพวกเขา!) ประมาณครึ่งเวลาจากนั้นการโยกย้ายนั้นเกิดขึ้นในทิศทางทแยงมุม - และความลาดชันนั้นสูงมาก
ส่วนที่เหลือของโพสต์นี้แสดงการวิเคราะห์สถานการณ์นี้
สุ่มเดินเป็นลำดับของผลรวมบางส่วนของ( W 1 , W 2 , … , W n )โดยที่W ฉันเป็นอิสระตัวแปรตัวแปรศูนย์หมายถึงการกระจายตัวเหมือนกัน ให้ความแปรปรวนร่วมกันของพวกเขาจะσ 2( Xผม)( ว1, ว2, … , Wn)Wผมσ2
ในการก่อให้เกิดของการเดินเช่นนั้น "ความแปรปรวน" จะถูกคำนวณราวกับว่านี่เป็นชุดข้อมูลใด ๆ :x = ( x1, … , xn)
V( x ) = 1n∑(xi−x¯)2.
วิธีที่ดีในการคำนวณค่านี้คือการหาค่าเฉลี่ยครึ่งหนึ่งของความแตกต่างยกกำลังสองทั้งหมด:
V(x)=1n(n−1)∑j>i(xj−xi)2.
เมื่อถูกมองว่าเป็นผลลัพธ์ของการเดินแบบสุ่มXของnขั้นตอนความคาดหวังของสิ่งนี้คือxXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
ความแตกต่างคือผลรวมของตัวแปร iid
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
ขยายจัตุรัสและรับความคาดหวัง เนื่องจากเป็นอิสระและมีค่าเฉลี่ยเป็นศูนย์ความคาดหวังของคำศัพท์ข้ามทั้งหมดจึงเป็นศูนย์ ที่ใบเพียงคำเช่นW kซึ่งคาดหวังσ 2 ดังนั้นWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
มันง่ายต่อการติดตาม
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
ความแปรปรวนร่วมระหว่างสองการรับรู้อิสระและy --again ในแง่ของชุดข้อมูลไม่ใช่ตัวแปรสุ่ม - สามารถคำนวณได้ด้วยเทคนิคเดียวกัน (แต่ต้องใช้พีชคณิตมากขึ้น ผลลัพธ์คือสี่เหลี่ยมจัตุรัสที่คาดหวังความแปรปรวนร่วมคือxy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
XYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
9/400.47ρ(n)
ฉันแน่ใจว่าฉันได้ทำข้อผิดพลาดในการคำนวณ แต่การจำลองมีความแม่นยำที่แม่นยำ ในผลลัพธ์ต่อไปนี้แสดงฮิสโตแกรมของρ2( n ) สำหรับ 1000การจำลองแต่ละเส้นเส้นสีแดงแนวตั้งแสดงค่าเฉลี่ยในขณะที่เส้นสีน้ำเงินประแสดงค่าของสูตร เห็นได้ชัดว่ามันไม่ถูกต้อง แต่ไม่มีอาการ เห็นได้ชัดว่าการกระจายทั้งหมดของρ2( n ) ใกล้จะถึงขีด จำกัด แล้ว nเพิ่มขึ้น ในทำนองเดียวกันการกระจายของ| ρ(n) | (ซึ่งเป็นปริมาณความสนใจ) จะเข้าใกล้ขีด จำกัด
นี่คือR
รหัสในการผลิตรูป
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}