ความสัมพันธ์ระหว่างช่วงและส่วนเบี่ยงเบนมาตรฐาน


14

ในบทความฉันพบสูตรสำหรับค่าเบี่ยงเบนมาตรฐานของขนาดตัวอย่างN

σ=R¯2.534

โดยที่R¯คือช่วงเฉลี่ยของตัวอย่างย่อย (ขนาด6 ) จากตัวอย่างหลัก การคำนวณจำนวน2.534เป็นอย่างไร? ตัวเลขนี้ถูกต้องหรือไม่


6
โปรดอ้างอิง สำคัญกว่า: 1. ไม่มี "จำนวนที่ถูกต้อง" ที่นี่โดยไม่ขึ้นอยู่กับประเภทของการแจกแจงที่คุณวาด 2. กฎเหล่านี้มักมาจากความสนใจในวิธีการทางลัดของการประมาณค่า SD จากช่วง ตอนนี้เรามีคอมพิวเตอร์ .... คุณต้องการทำเช่นนั้นและทำไม? ทำไมไม่ใช้เพียงแค่ข้อมูล
Nick Cox

3
@Nick ขออภัย: คุณถูกต้อง ค่ารอบงานสำหรับส่วนเบี่ยงเบนมาตรฐานเมื่อขนาดของกลุ่มตัวอย่างอยู่ที่ประมาณ15ที่จะ50 ; 3 ใช้งานได้กับขนาดตัวอย่างประมาณ10เป็นต้นฉันจะลบความคิดเห็นก่อนหน้าของฉันดังนั้นมันจึงไม่ทำให้คนอื่นสับสนกว่าฉัน! 41550310
whuber

1
@NickCox เป็นแหล่งรัสเซียเก่าและฉันไม่เห็นสูตรมาก่อน
Andy

3
การให้การอ้างอิงนั้นไม่ค่อยเป็นความคิดที่ดี ให้ผู้อ่านตัดสินใจด้วยตนเองว่าพวกเขาน่าสนใจหรือเข้าถึงได้ (มีคนมากมายที่นี่ที่สามารถอ่านภาษารัสเซียได้)
Nick Cox

คำตอบ:


17

ในตัวอย่างของnค่าที่เป็นอิสระจากการแจกแจงFกับ pdf f , pdf ของการแจกแจงร่วมของจุดสุดยอดขั้นต่ำ( x ) = x [ 1 ]และสูงสุด( x ) = x [ n ]เป็นสัดส่วนกับxnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(ค่าคงที่ของสัดส่วนเป็นส่วนกลับของสัมประสิทธิ์ multinomial ) โดยสังเขป PDF ข้อต่อนี้เป็นการแสดงออกถึงโอกาสในการหาค่าที่เล็กที่สุดในช่วง[x[1],x[1]+dx[1])ซึ่งเป็นค่าที่ใหญ่ที่สุดในช่วง[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])และตรงกลางn2ค่าระหว่างพวกเขาในช่วง ) เมื่อFต่อเนื่องเราอาจแทนที่ช่วงกลางนั้นด้วย( x [ 1 ] , x [ n ] ]ดังนั้นการละเลยความน่าจะเป็น "น้อยที่สุด" ความน่าจะเป็นที่เกี่ยวข้องที่เกี่ยวข้องลำดับแรกในความแตกต่างคือf ) d x [ 1 ] , f ( x[x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], และF( x [ n ] )-F( x [ 1 ] ),. ตามลำดับในขณะนี้ทำให้เห็นได้ชัดที่สูตรมาจาก)f(x[n])dx[n],F(x[n])F(x[1]),

การคาดหวังของช่วงให้2.53441 σสำหรับการใด ๆ กระจายปกติมีค่าเบี่ยงเบนมาตรฐานσและn = 6 ช่วงที่คาดว่าจะเป็นผลคูณของσขึ้นอยู่กับขนาดตัวอย่างn :x[n]x[1]2.53441 σσn=6σn

Normal

ค่าเหล่านี้คำนวณโดยการรวมตัวเลขมากกว่า{(x,y)R2| xy}โดยมีFตั้งค่าเป็น CDF มาตรฐานปกติและหารด้วยค่าเบี่ยงเบนมาตรฐานของF(ซึ่งเป็นเพียง1)(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

ความสัมพันธ์แบบทวีคูณที่คล้ายกันระหว่างช่วงที่คาดหวังและส่วนเบี่ยงเบนมาตรฐานจะเก็บไว้สำหรับตระกูลการกระจายตำแหน่งใด ๆ เนื่องจากเป็นสมบัติของรูปร่างของการแจกแจงเพียงอย่างเดียว ตัวอย่างเช่นนี่คือโครงเรื่องเทียบเคียงสำหรับการแจกแจงแบบสม่ำเสมอ

Uniform

และการแจกแจงแบบเลขชี้กำลัง:

Exponential

ค่าในสองแปลงก่อนหน้านั้นได้มาจากการบูรณาการที่แน่นอน - ไม่ใช่ตัวเลข - ซึ่งเป็นไปได้เนื่องจากรูปแบบพีชคณิตที่ค่อนข้างง่ายของและFในแต่ละกรณี สำหรับการแจกแจงเครื่องแบบพวกเขาเท่ากับn - 1fFและสำหรับการแจกแจงแบบเอ็กซ์โพเนนเชียลพวกเขาคือγ+ψ(n)=γ+ Γ ( n )n1(n+1)12เมื่อγเป็นค่าคงที่ของออยเลอร์และψคือฟังก์ชัน "polygamma" ซึ่งเป็นอนุพันธ์ลอการิทึมของฟังก์ชันแกมม่าของออยเลอร์γ+ψ(n)=γ+Γ(n)Γ(n)γψ

แม้ว่าพวกเขาจะแตกต่างกัน (เพราะการกระจายเหล่านี้แสดงรูปร่างที่หลากหลาย) ทั้งสามเห็นด้วยคร่าว ๆ รอบซึ่งแสดงให้เห็นว่าตัวคูณ2.5ไม่ขึ้นอยู่กับรูปร่างอย่างหนักและดังนั้นจึงสามารถทำหน้าที่เป็นรถโดยสารได้ เมื่อช่วงของชุดย่อยขนาดเล็กเป็นที่รู้จัก (ที่จริงที่หนักมากเทลด์นักศึกษาทีกระจายกับสามองศาอิสระยังคงมีตัวคูณรอบ2.3สำหรับn = 6ซึ่งอยู่ไม่ไกลจากที่ทุกคน2.5 .)n=62.5t2.3n=62.5


6
นิทรรศการที่ยอดเยี่ยม! คุณอาจสนใจที่จะรู้ว่าสิ่งนี้ดูเหมือนจะได้รับการตรวจสอบในปี 1920 ดูผ้าพันคอ 1925 ในตารางผ้าพันคอของ (ตาราง X) ค่าที่คาดหวังสำหรับช่วงที่ได้รับตัวอย่างขนาด 6 เป็น σ เขาแสดงให้เห็นที่มาของการแจกแจงแบบสมบูรณ์ของช่วงสำหรับการแจกแจงแบบปกติ สิ่งนี้ถูกใช้โดยDavid et.al (1954)เพื่อคำนวณคะแนนความน่าจะเป็นของการแจกแจงช่วงสำหรับการทดสอบหาค่าเฉลี่ย (ดู D'Agostino & Stephens 9.3.3.4.2) 2.53441σ
Avraham

@Avraham Thank you for the illuminating comments. What struck me when I added the graphics is that the really clever part of this whole approach is the use of subsamples of size six because that's where the multipliers all tend to be about the same regardless of distributional shape.
whuber

Thanks! Tippet's tables actually give the appropriate multiplier for all numbers between 2 and 1000. He does mention running into calculation issues; of course, this was back in 1925 a good 20 years before ENIAC.
Avraham

@whuber can you show how the number (2.534) was calculated?
Andy

ฉันแก้ไขคำตอบเพื่อรวมคำอธิบายของการคำนวณ
whuber

4

การประมาณนั้นใกล้เคียงกับค่าเบี่ยงเบนมาตรฐานตัวอย่างจริงมาก ฉันเขียนสคริปต์ R ด่วนเพื่อแสดง:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

ซึ่งให้:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

ตอนนี้ฉันไม่แน่ใจ (แต่) ทำไมมันถึงใช้งานได้ แต่อย่างน้อยมันก็ดูเหมือน (ที่ราคาสูงกว่า) ว่าการประมาณนั้นเหมาะสม

แก้ไข: ดูความคิดเห็นที่ยอดเยี่ยมของ @ Whuber (ด้านบน) ว่าทำไมงานนี้


1
คุณกำลังวาดตัวอย่างย่อยของขนาด 6จากการกระจายที่สม่ำเสมอโดยประมาณ สำหรับการกระจายที่สม่ำเสมออย่างแท้จริงอัตราส่วนคือ103/72.474. แน่นอนถ้าคุณต้องใช้ปัจจัยนั้นในการจำลองของคุณคุณจะได้รับmean(R)/2.474เท่ากับ2,887.6, very close to sd(x).
whuber

Very true! > mean(R)/2.474 [1] 2887.611
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.