ช่วงความเชื่อมั่นของ RMSE


20

ฉันได้รับตัวอย่างของจุดข้อมูลจากประชากร แต่ละจุดเหล่านี้มีค่าจริง (รู้จักจากความจริงพื้นดิน) และค่าประมาณ ฉันคำนวณข้อผิดพลาดสำหรับแต่ละจุดที่สุ่มตัวอย่างแล้วคำนวณ RMSE ของตัวอย่างn

จากนั้นฉันจะอนุมานช่วงความเชื่อมั่นบางประเภทรอบ RMSE นี้ตามขนาดตัวอย่างอย่างไรn

ถ้าฉันใช้ค่าเฉลี่ยมากกว่า RMSE ฉันก็จะไม่มีปัญหาในการทำเช่นนี้เพราะฉันสามารถใช้สมการมาตรฐาน

m=Zσn

แต่ฉันไม่รู้ว่าสิ่งนี้ใช้ได้สำหรับ RMSE มากกว่าค่าเฉลี่ยหรือไม่ มีวิธีใดบ้างที่ฉันสามารถปรับเปลี่ยนสิ่งนี้ได้

(ฉันได้เห็นคำถามนี้แต่ฉันไม่ได้มีปัญหาว่าประชากรของฉันมีการกระจายตามปกติหรือไม่ซึ่งเป็นคำตอบที่เกี่ยวข้องกับ)


คุณคำนวณอะไรเป็นพิเศษเมื่อคุณ "คำนวณค่า RMSE ของกลุ่มตัวอย่าง" มันคือ RMSE ของค่าจริงของค่าโดยประมาณหรือความแตกต่างของพวกเขา?
whuber

2
ฉันกำลังคำนวณ RMSE ของความแตกต่างนั่นคือการคำนวณสแควร์รูทของค่าเฉลี่ยของความแตกต่างกำลังสองระหว่างค่าจริงและค่าประมาณ
robintw

หากคุณรู้ว่า 'ความจริงพื้นฐาน' (แม้ว่าฉันไม่แน่ใจว่าสิ่งที่จริงหมายถึง) ทำไมคุณจะต้องมีความไม่แน่นอนใน RMSE? คุณกำลังพยายามสร้างการอนุมานบางอย่างเกี่ยวกับกรณีที่คุณไม่มีความจริงพื้นฐานหรือไม่? นี่เป็นปัญหาการสอบเทียบหรือไม่
Glen_b -Reinstate Monica

@Glen_b: ใช่นั่นคือสิ่งที่เรากำลังพยายามทำ เราไม่มีความจริงพื้นฐานสำหรับประชากรทั้งหมดเพียงเพื่อตัวอย่าง จากนั้นเราจะคำนวณ RMSE สำหรับตัวอย่างและเราต้องการให้มีช่วงความมั่นใจเมื่อเราใช้ตัวอย่างนี้เพื่ออนุมาน RMSE ของประชากร
robintw

1
สำเนาซ้ำซ้อนที่เป็นไปได้ของSE ของ RMSE ใน R
Curious

คำตอบ:


15

ด้วยเหตุผลที่คล้ายกันที่นี่ฉันอาจให้คำตอบสำหรับคำถามของคุณภายใต้เงื่อนไขบางประการ

ให้เป็นค่าจริงของคุณสำหรับจุดข้อมูลและค่าโดยประมาณ หากเราสมมติว่าความแตกต่างระหว่างค่าโดยประมาณและค่าจริงมีฉันทีเอชxฉันxiithx^i

  1. หมายถึงศูนย์ (เช่นมีการกระจายรอบ )xฉันx^ixi

  2. ติดตามการแจกแจงแบบปกติ

  3. และทุกคนมีค่าเบี่ยงเบนมาตรฐานเดียวกันσ

ในระยะสั้น:

x^ixiN(0,σ2),

แล้วคุณต้องการช่วงความเชื่อมั่นจริงๆ\σ

หากสมมติฐานข้างต้นถือเป็นจริง ติดตาม aการกระจายที่มี (ไม่ใช่ ) องศาของ เสรีภาพ ซึ่งหมายความว่า χ 2 n nn-1

nRMSE2σ2=n1ni(xi^xi)2σ2
χn2nn1

P(χα2,n2nRMSE2σ2χ1α2,n2)=1αP(nRMSE2χ1α2,n2σ2nRMSE2χα2,n2)=1αP(nχ1α2,n2RMSEσnχα2,n2RMSE)=1α.

ดังนั้น เป็นช่วงความมั่นใจของคุณ

[nχ1α2,n2RMSE,nχα2,n2RMSE]

นี่คือโปรแกรมไพ ธ อนที่จำลองสถานการณ์ของคุณ

from scipy import stats
from numpy import *
s = 3
n=10
c1,c2 = stats.chi2.ppf([0.025,1-0.025],n)
y = zeros(50000)
for i in range(len(y)):
    y[i] =sqrt( mean((random.randn(n)*s)**2))

print "1-alpha=%.2f" % (mean( (sqrt(n/c2)*y < s) & (sqrt(n/c1)*y > s)),)

หวังว่าจะช่วย

หากคุณไม่แน่ใจว่าสมมติฐานที่ใช้หรือถ้าคุณต้องการที่จะเปรียบเทียบสิ่งที่ผมเขียนถึงวิธีการที่แตกต่างกันคุณก็สามารถลองร่วมมือ


1
ผมคิดว่าคุณผิด - เขาต้องการ CI สำหรับ RMSE ไม่\และฉันก็ต้องการเช่นกัน :)σ
อยากรู้อยากเห็น

1
MSE=σ^2=1ni=1n(xix^i)2nn1σσ

10

i=1,,nxix^i

ϵi

ϵi=x^ixi,BIAS=ϵ¯=1ni=1nϵi,MSE=ϵ2¯=1ni=1nϵi2,RMSE=MSE.

ϵ

STDE2=(ϵϵ¯)2¯=1ni=1n(ϵiϵ¯)2,
STDE2=(ϵϵ¯)2¯=ϵ2¯ϵ¯2=RMSE2BIAS2.

ϵn<30STDE/n


2
RMSE2=STDE2RMSE2BIAS2χ2χ2
fabee

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.