ฉันจะค้นหาค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐานตัวอย่างจากการแจกแจงแบบปกติได้อย่างไร


11

ยกโทษให้ฉันถ้าฉันพลาดบางสิ่งบางอย่างค่อนข้างชัดเจน

ฉันเป็นนักฟิสิกส์ที่มีการแจกแจง (ฮิสโตแกรม) เป็นหลักเกี่ยวกับค่าเฉลี่ยที่ใกล้เคียงกับการแจกแจงแบบปกติ ค่าที่สำคัญสำหรับฉันคือส่วนเบี่ยงเบนมาตรฐานของตัวแปรสุ่มเกาส์นี่ ฉันจะพยายามค้นหาข้อผิดพลาดเกี่ยวกับค่าเบี่ยงเบนมาตรฐานตัวอย่างได้อย่างไร ฉันรู้สึกว่ามันเกี่ยวข้องกับความผิดพลาดในแต่ละ bin ในฮิสโทแกรมดั้งเดิม


คำแนะนำที่มีให้ที่stats.stackexchange.com/questions/26924 โดยทั่วไปข้อผิดพลาดการสุ่มตัวอย่างของความแปรปรวนสามารถคำนวณได้ในแง่ของช่วงเวลาสี่ช่วงแรกของการแจกแจงและดังนั้นข้อผิดพลาดการสุ่มตัวอย่างของ SD อย่างน้อยสามารถประมาณได้จากช่วงเวลาเหล่านั้น
whuber

คำตอบ:


12

ดูเหมือนว่าคุณกำลังขอการคำนวณค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐานตัวอย่าง นั่นคือคุณกำลังขอที่ไหนSD(s)=var(s)

s=1n1i=1n(XiX¯),

และ ¯ Xคือค่าเฉลี่ยตัวอย่างX1,...,XnN(μ,σ2)X¯

อันดับแรกเรารู้จากคุณสมบัติพื้นฐานของความแปรปรวนว่า

var(s)=E(s2)E(s)2

เนื่องจากความแปรปรวนของตัวอย่างที่เป็นกลางเรารู้ 2 ในทำไมเป็นส่วนเบี่ยงเบนมาตรฐานตัวอย่างประมาณการลำเอียงของσ ? , E ( s )จะถูกคำนวณจากที่เราสามารถอนุมานE(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

ดังนั้น

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

จุดดี. ฉันได้ประมาณความแปรปรวนของ s ^ 2 การหาสแควร์รูทให้ค่าประมาณของค่าเบี่ยงเบนมาตรฐานของ s ^ 2 แต่คุณตอบคำถามจริงซึ่งจะได้ค่าเบี่ยงเบนมาตรฐานของ s ฉันจะสมมติว่าด้วยเหตุผลเชิงปฏิบัติคุณก็ต้องการแทนที่σด้วย s เพื่อรับค่าประมาณโดยใช้สูตร
Michael R. Chernick

ใช่ว่าเป็นขวาคุณสามารถแทนที่กับsและประมาณนี้ทำงานได้ดีแม้สำหรับขนาดตัวอย่างเจียมเนื้อเจียมตัว - ฉันได้มีการทดสอบบางอย่างกับn = 20 σsn=20
มาโคร

11

ปริมาณมีการแจกแจงแบบไคสแควร์ที่มีความอิสระn - 1องศาเมื่อตัวอย่างมีความเป็นอิสระและกระจายด้วยการแจกแจงแบบปกติเดียวกันปริมาณนี้สามารถใช้เพื่อรับช่วงความมั่นใจสำหรับ ความแปรปรวนของปกติและส่วนเบี่ยงเบนมาตรฐาน หากคุณมีค่าดิบและไม่ได้เป็นเพียงค่ากลางของถังขยะที่คุณสามารถคำนวณs 2 X=(n1)s2/σ2n1s2

เป็นที่ทราบกันว่าถ้ามีการกระจายไคสแควร์กับn - 1องศาอิสระแปรปรวนของมันคือ2 ( n - 1 ) เมื่อรู้สิ่งนี้และความจริงแล้วV a r ( c X ) = c 2 V a r ( X )เราได้ว่าs 2มีความแปรปรวนเท่ากับ2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2 แม้ว่าจะไม่ทราบ σ 4คุณสามารถประมาณค่าได้ด้วย s 4และคุณมีความคิดคร่าวๆว่าความแปรปรวนของ s 2นั้นคืออะไร

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

σ2s4σ4

s4σ4σ4

2
บางทีการนอนไม่เพียงพอ แต่นั่นไม่เหมือนการใช้เหตุผลแบบวงกลมใช่ไหม
Néstor

เราสันนิษฐานจากการโจมตีว่าข้อมูลมาจากการแจกแจงแบบปกติดังนั้นจึงไม่มีปัญหาค่าใช้จ่าย ฉันหมายถึงคร่าวๆตามที่ Macro แนะนำ ฉันยอมรับว่าขนาดตัวอย่างมีผลต่อการปิด s ^ 4 ถึงσ ^ 4 แต่ความกังวลเกี่ยวกับค่าผิดปกติคือ offbase Nesp หากคุณลงคะแนนให้ฉันเพราะฉันคิดว่ามันไม่ยุติธรรม สิ่งที่ฉันนำเสนอเป็นวิธีมาตรฐานในการประมาณค่าความเบี่ยงเบนมาตรฐานสำหรับ s ^ 2 เมื่อข้อมูลถูกแจกจ่ายแบบธรรมดา
Michael R. Chernick

@Nesp, Michael ได้ให้ค่าประมาณที่สอดคล้องกันของความแปรปรวนของค่าเบี่ยงเบนมาตรฐานตัวอย่างจากตัวอย่างที่กระจายแบบปกติ - สำหรับตัวอย่างขนาดใหญ่ที่จะทำได้ดี - จำลองและค้นหา ฉันไม่แน่ใจว่าทำไมคุณคิดว่านี่เป็นเหตุผลแบบวงกลม
มาโคร

7

σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

จากนั้นประมาณค่าความน่าจะเป็นสูงสุดจะได้รับจาก((μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

โปรดทราบว่าRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

ข้อได้เปรียบของช่วงเวลาแบบนี้คือพวกมันไม่แปรเปลี่ยนภายใต้การแปลง ในกรณีนี้ถ้าคุณคำนวณช่วงเวลาสำหรับ , I = ( L , U )σI=(L,U)σ2I=(L2,U2)


ฉันคิดว่าเขาต้องการค่าเบี่ยงเบนมาตรฐานของ s จริงๆ
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.