เพื่อบอกลักษณะการกระจายตัวแบบ 2 มิติรอบเซนทรอยด์คุณแค่ต้องการ (ราก) หมายถึงระยะทางกำลังสอง
σ^= RMS =1nΣผม( (xผม-x¯)2+ (Yผม-Y¯)2)-----------------------√.
ในสูตรนี้ (xผม,Yผม) , i = 1 , 2 , … , n คือพิกัดจุดและเซนทรอยด์ (จุดเฉลี่ย) คืออะไร (x¯,Y¯) .
คำถามจะถามถึงการกระจายของระยะทาง เมื่อลูกบอลมีการกระจายตัวแบบ isotropic bivariate ปกติรอบเซนทรอยด์ของพวกเขา - ซึ่งเป็นสมมติฐานมาตรฐานและมีเหตุผลทางร่างกาย - ระยะกำลังสองเป็นสัดส่วนกับการแจกแจงไคสแควร์ที่มีอิสระสององศา (หนึ่งสำหรับแต่ละพิกัด) นี่เป็นผลโดยตรงของการนิยามหนึ่งของการแจกแจงแบบไคสแควร์เป็นผลรวมของกำลังสองของตัวแปรปกติมาตรฐานอิสระเพราะ
xผม-x¯=n - 1nxผม-Σj ≠ ฉัน1nxJ
เป็นการรวมกันเชิงเส้นของตัวแปรอิสระอิสระที่มีความคาดหวัง
E [xผม-x¯] =n - 1nE [xผม] -Σj ≠ ฉัน1nE [xJ] = 0
การเขียนความแปรปรวนร่วมของ
xผม เช่น
σ2,
E [(xผม-x¯)2] = Var (xผม-x¯) =(n - 1n)2วาร์(xผม) +Σj ≠ ฉัน(1n)2วาร์(xJ) =n - 1nσ2.
ข้อสันนิษฐานของ anisotropy คือ
YJ มีการกระจายตัวเช่นเดียวกับ
xผม และเป็นอิสระจากพวกเขาดังนั้นผลลัพธ์ที่เหมือนกันจึงมีไว้สำหรับการกระจายของ
(YJ-Y¯)2. สิ่งนี้กำหนดค่าคงที่ของสัดส่วน:
สี่เหลี่ยมของระยะทางมีการแจกแจงแบบไคสแควร์พร้อมอิสระสององศาn - 1nσ2.
การทดสอบที่รุนแรงที่สุดของสมการเหล่านี้เป็นกรณี n = 2สำหรับส่วนที่แล้ว n - 1n แตกต่างจากมากที่สุด 1. โดยจำลองการทดลองทั้งสองแบบสำหรับn = 2 และ n = 40และการทำกราฟฮิสโตแกรมของระยะทางไกลด้วยการแจกแจงแบบไคสแควร์ที่ปรับขนาด (สีแดง) เราสามารถตรวจสอบทฤษฎีนี้ได้
แต่ละแถวแสดงข้อมูลเดียวกัน: ด้านซ้ายแกน x คือลอการิทึม ทางด้านขวาจะแสดงระยะทางกำลังสองที่เกิดขึ้นจริง คุณค่าที่แท้จริงของσ สำหรับการจำลองเหล่านี้ถูกตั้งค่าเป็น 1.
ผลลัพธ์เหล่านี้มีไว้สำหรับ 100,000 รอบด้วย n = 2 และ 50,000 ซ้ำด้วย n = 40. ข้อตกลงระหว่างฮิสโทแกรมและความหนาแน่นไคสแควร์นั้นยอดเยี่ยม
แม้ว่า σ2ไม่เป็นที่รู้จักสามารถประเมินได้หลายวิธี ตัวอย่างเช่นระยะทางกำลังสองเฉลี่ยควรเป็นn - 1nσ2 คูณด้วยค่าเฉลี่ยของ χ22, ซึ่งเป็น 2. กับn = 40ตัวอย่างเช่นประมาณ σ2 เช่น 4039/2คูณระยะกำลังสองเฉลี่ย ดังนั้นการประมาณσ อยากจะเป็น 40/78−−−−−√คูณระยะทาง RMS การใช้ค่านิยมของχ22 การกระจายเราสามารถพูดได้ว่า:
ประมาณ 39% ของระยะทางจะน้อยกว่า 39/40−−−−−√σ^เนื่องจาก 39% ของ χ22 การกระจายน้อยกว่า 1.
ประมาณ 78% ของระยะทางจะน้อยกว่า 3–√ ครั้ง 39/40−−−−−√σ^เพราะ 78% ของ χ22 การกระจายน้อยกว่า 3.
ดังนั้นสำหรับหลาย ๆ อย่างที่คุณต้องการใช้แทน 1 หรือ 3. เป็นการตรวจสอบในแบบจำลองสำหรับn=40 วางแผนไว้ก่อนหน้านี้สัดส่วนที่แท้จริงของระยะทางกำลังสองน้อยกว่า 1,2,…,10 ครั้ง n−1nσ^2 มี
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
สัดส่วนทางทฤษฎีคือ
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
ข้อตกลงเป็นเลิศ
นี่คือR
รหัสในการดำเนินการและวิเคราะห์แบบจำลอง
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)