วิธีการคำนวณค่าเบี่ยงเบนมาตรฐานแบบ 2 มิติด้วยค่าเฉลี่ย 0 ล้อมรอบด้วยขีด จำกัด


10

ปัญหาของฉันเป็นดังนี้: ฉันวาง 40 ลูกในคราวเดียวจากจุดหนึ่งไม่กี่เมตรเหนือพื้น ลูกบอลกลิ้งและมาพัก เมื่อใช้สายตาคอมพิวเตอร์ฉันคำนวณจุดศูนย์กลางมวลในระนาบ XY ฉันสนใจเฉพาะระยะทางจากจุดศูนย์กลางของมวลไปยังลูกบอลแต่ละลูกซึ่งคำนวณโดยใช้รูปทรงเรขาคณิตที่เรียบง่าย ตอนนี้ฉันอยากรู้ค่าเบี่ยงเบนมาตรฐานด้านเดียวจากศูนย์กลาง ดังนั้นฉันจะสามารถรู้ได้ว่ามีลูกบอลจำนวนหนึ่งอยู่ในรัศมี std หนึ่งลูกมากกว่าภายในรัศมี 2 * std เป็นต้น ฉันจะคำนวณค่าเบี่ยงเบนมาตรฐานด้านเดียวได้อย่างไร วิธีการปกติจะระบุว่าครึ่งหนึ่งของลูกบอลอยู่ใน "ด้านลบ" ของค่าเฉลี่ย 0 แน่นอนว่าไม่มีเหตุผลในการทดลองนี้ ฉันต้องตรวจสอบให้แน่ใจว่าลูกบอลเป็นไปตามการกระจายมาตรฐานหรือไม่ ขอบคุณสำหรับความช่วยเหลือ

คำตอบ:


13

เพื่อบอกลักษณะการกระจายตัวแบบ 2 มิติรอบเซนทรอยด์คุณแค่ต้องการ (ราก) หมายถึงระยะทางกำลังสอง

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

ในสูตรนี้ (xi,yi),i=1,2,,n คือพิกัดจุดและเซนทรอยด์ (จุดเฉลี่ย) คืออะไร (x¯,y¯).


คำถามจะถามถึงการกระจายของระยะทาง เมื่อลูกบอลมีการกระจายตัวแบบ isotropic bivariate ปกติรอบเซนทรอยด์ของพวกเขา - ซึ่งเป็นสมมติฐานมาตรฐานและมีเหตุผลทางร่างกาย - ระยะกำลังสองเป็นสัดส่วนกับการแจกแจงไคสแควร์ที่มีอิสระสององศา (หนึ่งสำหรับแต่ละพิกัด) นี่เป็นผลโดยตรงของการนิยามหนึ่งของการแจกแจงแบบไคสแควร์เป็นผลรวมของกำลังสองของตัวแปรปกติมาตรฐานอิสระเพราะ

xix¯=n1nxiji1nxj
เป็นการรวมกันเชิงเส้นของตัวแปรอิสระอิสระที่มีความคาดหวัง
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
การเขียนความแปรปรวนร่วมของ xi เช่น σ2,
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
ข้อสันนิษฐานของ anisotropy คือ yj มีการกระจายตัวเช่นเดียวกับ xi และเป็นอิสระจากพวกเขาดังนั้นผลลัพธ์ที่เหมือนกันจึงมีไว้สำหรับการกระจายของ (yjy¯)2. สิ่งนี้กำหนดค่าคงที่ของสัดส่วน: สี่เหลี่ยมของระยะทางมีการแจกแจงแบบไคสแควร์พร้อมอิสระสององศาn1nσ2.

การทดสอบที่รุนแรงที่สุดของสมการเหล่านี้เป็นกรณี n=2สำหรับส่วนที่แล้ว n1n แตกต่างจากมากที่สุด 1. โดยจำลองการทดลองทั้งสองแบบสำหรับn=2 และ n=40และการทำกราฟฮิสโตแกรมของระยะทางไกลด้วยการแจกแจงแบบไคสแควร์ที่ปรับขนาด (สีแดง) เราสามารถตรวจสอบทฤษฎีนี้ได้

รูป

แต่ละแถวแสดงข้อมูลเดียวกัน: ด้านซ้ายแกน x คือลอการิทึม ทางด้านขวาจะแสดงระยะทางกำลังสองที่เกิดขึ้นจริง คุณค่าที่แท้จริงของσ สำหรับการจำลองเหล่านี้ถูกตั้งค่าเป็น 1.

ผลลัพธ์เหล่านี้มีไว้สำหรับ 100,000 รอบด้วย n=2 และ 50,000 ซ้ำด้วย n=40. ข้อตกลงระหว่างฮิสโทแกรมและความหนาแน่นไคสแควร์นั้นยอดเยี่ยม


แม้ว่า σ2ไม่เป็นที่รู้จักสามารถประเมินได้หลายวิธี ตัวอย่างเช่นระยะทางกำลังสองเฉลี่ยควรเป็นn1nσ2 คูณด้วยค่าเฉลี่ยของ χ22, ซึ่งเป็น 2. กับn=40ตัวอย่างเช่นประมาณ σ2 เช่น 4039/2คูณระยะกำลังสองเฉลี่ย ดังนั้นการประมาณσ อยากจะเป็น 40/78คูณระยะทาง RMS การใช้ค่านิยมของχ22 การกระจายเราสามารถพูดได้ว่า:

  • ประมาณ 39% ของระยะทางจะน้อยกว่า 39/40σ^เนื่องจาก 39% ของ χ22 การกระจายน้อยกว่า 1.

  • ประมาณ 78% ของระยะทางจะน้อยกว่า 3 ครั้ง 39/40σ^เพราะ 78% ของ χ22 การกระจายน้อยกว่า 3.

ดังนั้นสำหรับหลาย ๆ อย่างที่คุณต้องการใช้แทน 1 หรือ 3. เป็นการตรวจสอบในแบบจำลองสำหรับn=40 วางแผนไว้ก่อนหน้านี้สัดส่วนที่แท้จริงของระยะทางกำลังสองน้อยกว่า 1,2,,10 ครั้ง n1nσ^2 มี

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

สัดส่วนทางทฤษฎีคือ

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

ข้อตกลงเป็นเลิศ


นี่คือRรหัสในการดำเนินการและวิเคราะห์แบบจำลอง

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
ขอบคุณสำหรับคำตอบที่ครอบคลุมมาก ฉันไม่เข้าใจว่าสูตร RMS สามารถอธิบายความเบี่ยงเบนมาตรฐานได้อย่างไรโดยไม่หารด้วยจำนวนลูกบอล หากคุณเปรียบเทียบกับhttp://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformaticsพวกเขาได้แบ่งผลรวมโดย N ควรผลรวมหารด้วย N หรือ N-1 (ตั้งแต่ 40 ลูกเป็นเพียง เลือกจากประชากรของลูก?)
K_scheduler

หลังจากทำการคำนวณอีกครั้งดูเหมือนว่า sqrt (SDx ^ 2 + SDy ^ 2) คือสิ่งที่ฉันเป็น นี่จะให้รัศมีกับวงกลมที่มีลูกบอลทั้งหมดที่มีความน่าจะเป็น 65% ใช่ไหม?
K_scheduler

นั่นเป็นสูตรที่เทียบเท่ากับ RMS แต่ค่า 65% ไม่ถูกต้องตามที่อธิบายไว้ในคำตอบนี้
whuber

2
@nali ทุกประเด็นเหล่านี้ทำไว้อย่างชัดเจนในคำตอบของฉันที่นี่
whuber

4
@nali ข้อความของคุณที่นี่เป็นมากกว่าขอบเขตของความเหมาะสมในเรื่องความรุนแรงและการโจมตีโฆษณา แม้ว่าฉันจะไม่กังวลเกี่ยวกับการพิจารณาความโง่เขลาหรือโง่เง่าในฐานะผู้ดำเนินรายการของเว็บไซต์นี้ฉันต้องกังวลเกี่ยวกับการรักษาวาทกรรมทางแพ่งและดังนั้นจึงไม่สามารถทนต่อความพินาศที่คุณโพสต์ได้ ดังนั้นฉันได้ลบความคิดเห็นล่าสุดของคุณ หากฉันเห็นความคิดเห็นจากคุณที่หยาบคายในทำนองเดียวกันต่อใครเลยฉันจะลบความคิดเห็นเหล่านั้นโดยไม่แจ้งให้ทราบล่วงหน้าและฉัน (หรือผู้ดูแลคนอื่น) จะดำเนินการทันทีเพื่อ จำกัด การโต้ตอบของคุณในเว็บไซต์นี้
whuber

4

ฉันคิดว่าคุณมีบางสิ่งที่สับสนเล็กน้อย จริงอยู่ที่ระยะทางไม่สามารถลบได้ แต่นั่นไม่ส่งผลต่อการคำนวณค่าเบี่ยงเบนมาตรฐาน แม้ว่ามันจะหมายถึงการกระจายตัวของระยะทางไม่เป็นปกติอย่างแน่นอนแต่ก็ยังสามารถปิดได้ แต่แม้ว่ามันจะไกลจากปกติก็ยังมีค่าเบี่ยงเบนมาตรฐาน

นอกจากนี้ยังไม่มีส่วนเบี่ยงเบนมาตรฐาน "ด้านเดียว" คือคุณอาจคิดถึงการทดสอบสมมติฐาน (ซึ่งอาจเป็นด้านเดียวหรือสองด้าน) ในชื่อเรื่องของคุณคุณบอกว่าค่าเฉลี่ยคือ 0 แต่ระยะทางเฉลี่ยจะไม่เท่ากับ 0 (เว้นแต่ว่าลูกบอลอยู่ในกอง 40 ลูกสูง!) และคุณบอกว่ามีข้อ จำกัด - อาจมีข้อ จำกัด ถ้าลูกตก ห้องหนึ่งแล้วพวกเขาไม่สามารถอยู่ห่างจากศูนย์กลางได้ไกลกว่าผนังที่ใกล้ที่สุด แต่ถ้าลูกบอลบางลูกกระเด้งกับกำแพงนั่นจะไม่กระทบอะไร

ดังนั้นเมื่อคุณมี 40 ระยะทางคุณจะคำนวณค่าเบี่ยงเบนมาตรฐาน (และค่าเฉลี่ยมัธยฐาน, ค่าพิสัยระหว่างควอไทล์และอื่น ๆ ) โดยใช้วิธีมาตรฐาน นอกจากนี้คุณยังสามารถทำพล็อตของระยะทาง (เช่นพล็อตปกติแบบควอไทล์, พล็อตแบบกล่อง) เพื่อดูว่ามันกระจายแบบปกติหรือไม่


ขอบคุณปีเตอร์ฉันไม่ได้แสดงออกอย่างถูกต้อง ให้ฉันพยายามอธิบาย: ลองนึกภาพฉากจากด้านบน คุณคำนวณระยะทางเฉลี่ยมันจะแสดงเป็นวงกลมรอบจุดศูนย์กลางมวล (ระยะทางเฉลี่ย = รัศมี) ตอนนี้ +/- ค่าเบี่ยงเบนมาตรฐานจากนี้จะให้วงกลมขนาดเล็กและวงกลมใหญ่ขึ้น ฉันไม่อยากรู้ค่าเบี่ยงเบนมาตรฐานของระยะทางเฉลี่ยถึงจุดศูนย์กลางมวล แต่ค่อนข้างเบี่ยงเบนมาตรฐานจากจุดศูนย์กลางมวลออกไปด้านนอก กล่าวอีกนัยหนึ่งภายในรัศมีใดจากจุดศูนย์กลางมวลคือ 68.2% (ค่าเบี่ยงเบนมาตรฐานเดียว) ของลูกบอลที่อยู่
K_scheduler

โอวตกลง. ฉันคิดว่านี่ไม่ใช่ปัญหาสถิติ แต่เป็นปัญหาคณิตศาสตร์ การค้นหาที่จะรู้ว่าจะลดลง 68.2% ... ฉันลืมคำตอบ แต่เกี่ยวข้องกับπ.
Peter Flom

คุณอาจตอบถูกในคำตอบแรก จากสิ่งที่ฉันได้พบการใช้ค่าเบี่ยงเบนมาตรฐานของรัศมีควรทำเคล็ดลับ RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

เป็นเวลานานแล้วที่สิ่งนี้ถูกถาม แต่คำตอบของคำถามก็คือนี่คือการแจกแจงแบบ 2 มิติที่ชื่อการกระจาย Rayleigh นี่คือสมมติฐานคือปัจจัยรูปร่าง Rayleigh เท่ากับค่าเบี่ยงเบนมาตรฐานของพิกัด X และ Y ในทางปฏิบัติค่าของปัจจัยรูปร่างจะถูกคำนวณจากค่าเฉลี่ยรวมของส่วนเบี่ยงเบนมาตรฐานของ X และ Y

เริ่มต้นด้วย

XN(μx,σx2)
และ
YN(μy,σy2)

ใช้การแจกแจงแบบปกติ bivariant

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

แปลไปยังจุด

(μx,μy)
และสมมติว่า
ρ=0
.

ยังสมมติว่า

σx2=σy2
ดังนั้นแทนที่ด้วย
σ2

ดังนั้นการกระจายแบบ 2 มิติจะแสดงเป็นรัศมีรอบจุด

(μx,μy)
ซึ่งเป็นที่รู้จักในฐานะผู้จัดจำหน่ายเรย์ลี

PDF(r;σ)=rσ2exp(r22σ2)
ที่ไหน
σ=σx=σy
และ
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

แน่นอนว่านี่คือการกระจายอย่างต่อเนื่อง สำหรับตัวอย่างของลูกบอลเพียง 40 ลูกไม่มีวิธีแก้ปัญหาที่แน่นอน คุณต้องทำการวิเคราะห์มอนติคาร์โลด้วยตัวอย่างลูกบอล 40 ลูก เทย์เลอร์, นางสาว & กรับส์, แฟรงค์อี (1975) "การแจกแจงความน่าจะเป็นโดยประมาณสำหรับการแพร่กระจายสุดขีด"พบการประมาณค่าสำหรับการแจกแจงแบบไคและบันทึกปกติที่เหมาะกับการกระจายตัวของตัวอย่าง


แก้ไข - แม้จะมีข้อสงสัยของ Wuber สัดส่วนทางทฤษฎีที่เขาคำนวณคือ:

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

จากฟังก์ชัน CDF ค่า Sigma สะสมสำหรับ r (เป็น sigmas) เท่ากับช่วงจาก:

0-1, 0-2, 0-3, ... , 0-10

คือ:

0.3935, 0.6321, 0.7769, 0.8647, 0.9179, 0.9502, 0.9698, 0.9817, 0.9889, 0.9933


ขอบคุณสำหรับการตั้งชื่อการกระจาย อย่างไรก็ตามโดย (1) ไม่แยกความแตกต่างระหว่างพารามิเตอร์ของการแจกแจงและการประมาณของพารามิเตอร์นั้นที่ได้มาจากข้อมูล (2) ไม่ได้ระบุสมมติฐาน (ที่แข็งแกร่ง) ที่จำเป็นเกี่ยวกับการแจกลูกบอลและ (3) โดยคลุมเครือคุณเสี่ยง ผู้อ่านทำให้เข้าใจผิด แน่นอนมันไม่ชัดเจนว่าการอ้างอิงของ "นี่" ของคุณคืออะไร: มันจะเป็นการกระจายตัวของที่ตั้งของลูกหรือไม่ (ไม่) การกระจายตัวของจุดศูนย์กลางมวล? (ใช่ แต่ด้วยพารามิเตอร์ขนาดที่แตกต่างจากค่าเบี่ยงเบนมาตรฐานของลูกบอล) คุณต้องการที่จะชี้แจงคำตอบของคุณหรือไม่?
whuber

เติมเต็มในช่องว่าง ....
MaxW

ขอบคุณสำหรับการชี้แจง Max เป็นการตรวจสอบความถูกต้องอย่างง่ายของคำตอบของคุณลองพิจารณาบอลหนึ่งลูกแทน40. คำตอบของคุณดูเหมือนจะอ้างสิทธิ์การกระจายระยะห่างระหว่างลูกบอลนี้และจุดศูนย์กลางมวลของลูกบอลทั้งหมดคือการกระจาย Rayleigh น่าเสียดายที่ในกรณีนี้ระยะทางจะเป็นศูนย์เสมอ (คำถามอธิบายโดยเฉพาะว่า "ระยะห่างจากจุดศูนย์กลางมวลไปยังแต่ละลูกซึ่งคำนวณโดยใช้รูปทรงเรขาคณิตอย่างง่าย") นั่นแสดงว่าคำตอบของคุณอาจผิดในทุกกรณีรวมถึง40ลูก
whuber

การกระจายนั้นเป็นศูนย์กลางของมวล
MaxW

CDF ถูกตั้งค่าสำหรับหนึ่งลูกแน่นอน จาก CDF 39% ของลูกบอลจะตกภายในวงกลมรัศมีσ, 86% ภายใน2σและ 99% ภายใน3σ
MaxW

-1

การแจกแจงแบบปกติทั้งค่าบวกและลบจะสมเหตุสมผลถ้าคุณรู้ว่าการแจกแจงแบบปกตินี้ใช้สำหรับรัศมีหรือ "ระยะทางจากเซนทรอยด์" ตัวแปร, มุม, สุ่มและกระจายอย่างสม่ำเสมอจาก 0-pi


รัศมีที่ไม่สามารถลบได้แน่นอนจะไม่มีการกระจายแบบปกติ!
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.