ในบทความฉันพบสูตรสำหรับค่าเบี่ยงเบนมาตรฐานของขนาดตัวอย่าง
โดยที่คือช่วงเฉลี่ยของตัวอย่างย่อย (ขนาด ) จากตัวอย่างหลัก การคำนวณจำนวนเป็นอย่างไร? ตัวเลขนี้ถูกต้องหรือไม่
ในบทความฉันพบสูตรสำหรับค่าเบี่ยงเบนมาตรฐานของขนาดตัวอย่าง
โดยที่คือช่วงเฉลี่ยของตัวอย่างย่อย (ขนาด ) จากตัวอย่างหลัก การคำนวณจำนวนเป็นอย่างไร? ตัวเลขนี้ถูกต้องหรือไม่
คำตอบ:
ในตัวอย่างของnค่าที่เป็นอิสระจากการแจกแจงFกับ pdf f , pdf ของการแจกแจงร่วมของจุดสุดยอดขั้นต่ำ( x ) = x [ 1 ]และสูงสุด( x ) = x [ n ]เป็นสัดส่วนกับ
(ค่าคงที่ของสัดส่วนเป็นส่วนกลับของสัมประสิทธิ์ multinomial ) โดยสังเขป PDF ข้อต่อนี้เป็นการแสดงออกถึงโอกาสในการหาค่าที่เล็กที่สุดในช่วง[x[1],x[1]+dx[1])ซึ่งเป็นค่าที่ใหญ่ที่สุดในช่วง[x[n],x[n]+dx[n])และตรงกลางค่าระหว่างพวกเขาในช่วง ) เมื่อFต่อเนื่องเราอาจแทนที่ช่วงกลางนั้นด้วย( x [ 1 ] , x [ n ] ]ดังนั้นการละเลยความน่าจะเป็น "น้อยที่สุด" ความน่าจะเป็นที่เกี่ยวข้องที่เกี่ยวข้องลำดับแรกในความแตกต่างคือf ) d x [ 1 ] , f ( x และF( x [ n ] )-F( x [ 1 ] ),. ตามลำดับในขณะนี้ทำให้เห็นได้ชัดที่สูตรมาจาก)
การคาดหวังของช่วงให้2.53441 σสำหรับการใด ๆ กระจายปกติมีค่าเบี่ยงเบนมาตรฐานσและn = 6 ช่วงที่คาดว่าจะเป็นผลคูณของσขึ้นอยู่กับขนาดตัวอย่างn :
ค่าเหล่านี้คำนวณโดยการรวมตัวเลขมากกว่า{(x,y)∈R2| x≤y}โดยมีFตั้งค่าเป็น CDF มาตรฐานปกติและหารด้วยค่าเบี่ยงเบนมาตรฐานของF(ซึ่งเป็นเพียง1)
ความสัมพันธ์แบบทวีคูณที่คล้ายกันระหว่างช่วงที่คาดหวังและส่วนเบี่ยงเบนมาตรฐานจะเก็บไว้สำหรับตระกูลการกระจายตำแหน่งใด ๆ เนื่องจากเป็นสมบัติของรูปร่างของการแจกแจงเพียงอย่างเดียว ตัวอย่างเช่นนี่คือโครงเรื่องเทียบเคียงสำหรับการแจกแจงแบบสม่ำเสมอ
และการแจกแจงแบบเลขชี้กำลัง:
ค่าในสองแปลงก่อนหน้านั้นได้มาจากการบูรณาการที่แน่นอน - ไม่ใช่ตัวเลข - ซึ่งเป็นไปได้เนื่องจากรูปแบบพีชคณิตที่ค่อนข้างง่ายของและFในแต่ละกรณี สำหรับการแจกแจงเครื่องแบบพวกเขาเท่ากับn - 1และสำหรับการแจกแจงแบบเอ็กซ์โพเนนเชียลพวกเขาคือγ+ψ(n)=γ+ Γ ′ ( n )เมื่อγเป็นค่าคงที่ของออยเลอร์และψคือฟังก์ชัน "polygamma" ซึ่งเป็นอนุพันธ์ลอการิทึมของฟังก์ชันแกมม่าของออยเลอร์
แม้ว่าพวกเขาจะแตกต่างกัน (เพราะการกระจายเหล่านี้แสดงรูปร่างที่หลากหลาย) ทั้งสามเห็นด้วยคร่าว ๆ รอบซึ่งแสดงให้เห็นว่าตัวคูณ2.5ไม่ขึ้นอยู่กับรูปร่างอย่างหนักและดังนั้นจึงสามารถทำหน้าที่เป็นรถโดยสารได้ เมื่อช่วงของชุดย่อยขนาดเล็กเป็นที่รู้จัก (ที่จริงที่หนักมากเทลด์นักศึกษาทีกระจายกับสามองศาอิสระยังคงมีตัวคูณรอบ2.3สำหรับn = 6ซึ่งอยู่ไม่ไกลจากที่ทุกคน2.5 .)
การประมาณนั้นใกล้เคียงกับค่าเบี่ยงเบนมาตรฐานตัวอย่างจริงมาก ฉันเขียนสคริปต์ R ด่วนเพื่อแสดง:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
ซึ่งให้:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
ตอนนี้ฉันไม่แน่ใจ (แต่) ทำไมมันถึงใช้งานได้ แต่อย่างน้อยมันก็ดูเหมือน (ที่ราคาสูงกว่า) ว่าการประมาณนั้นเหมาะสม
แก้ไข: ดูความคิดเห็นที่ยอดเยี่ยมของ @ Whuber (ด้านบน) ว่าทำไมงานนี้
mean(R)/2.474
เท่ากับ, very close to sd(x)
.