R - สับสนในคำศัพท์ที่เหลือ


34
  • รูทหมายความว่าข้อผิดพลาดกำลังสอง
  • ผลรวมที่เหลือของกำลังสอง
  • ข้อผิดพลาดมาตรฐานที่เหลือ
  • หมายถึงข้อผิดพลาดกำลังสอง
  • ข้อผิดพลาดในการทดสอบ

ฉันคิดว่าฉันเคยเข้าใจเงื่อนไขเหล่านี้ แต่ยิ่งฉันมีปัญหาทางสถิติมากเท่าไหร่ฉันก็ยิ่งสับสนมากขึ้น ฉันต้องการความมั่นใจอีกครั้ง & เป็นตัวอย่างที่ชัดเจน

ฉันสามารถหาสมการได้อย่างง่ายดายพอออนไลน์ แต่ฉันมีปัญหาในการอธิบาย 'อธิบายเหมือนฉัน 5' ของคำศัพท์เหล่านี้เพื่อให้ฉันสามารถตกผลึกในหัวของฉันความแตกต่างและวิธีหนึ่งนำไปสู่อีก

หากใครสามารถใช้รหัสนี้ด้านล่างและชี้ให้เห็นว่าฉันจะคำนวณเงื่อนไขเหล่านี้ได้อย่างไรฉันจะขอบคุณมัน รหัส R จะดีมาก ..

ใช้ตัวอย่างนี้ด้านล่าง:

summary(lm(mpg~hp, data=mtcars))

แสดงให้ฉันในรหัส R วิธีการค้นหา:

rmse = ____
rss = ____
residual_standard_error = ______  # i know its there but need understanding
mean_squared_error = _______
test_error = ________

คะแนนโบนัสสำหรับการอธิบายเช่นฉัน 5 ความแตกต่าง / ความคล้ายคลึงกันระหว่างสิ่งเหล่านี้ ตัวอย่าง:

rmse = squareroot(mss)

2
คุณช่วยอธิบายบริบทที่คุณได้ยินคำว่า " ข้อผิดพลาดในการทดสอบ " ได้หรือไม่? เพราะมีอยู่ในสิ่งที่เรียกว่า 'การทดสอบข้อผิดพลาด' แต่ผมไม่แน่ใจว่ามันเป็นสิ่งที่คุณกำลังมองหา ... (มันเกิดขึ้นในบริบทของการมีที่ชุดทดสอบและการฝึกอบรมชุด --does ใด ๆ ของเสียงที่คุ้นเคย? )
Steve S

ใช่ - ความเข้าใจของฉันเกี่ยวกับเรื่องนี้เป็นรูปแบบที่สร้างขึ้นในชุดฝึกอบรมที่ใช้กับชุดทดสอบ ข้อผิดพลาดในการทดสอบคือแบบจำลอง y's - ทดสอบ y's หรือ (modeled y's - ทดสอบ y's) ^ 2 หรือ (modeled y's - ทดสอบ y's) ^ 2 /// DF (หรือ N?) หรือ ((modeled y's - ทดสอบ y's) ^ 2 / N) ^. 5?
3788557

คำตอบ:


60

ตามที่ร้องขอฉันแสดงการใช้การถดถอยแบบง่ายโดยใช้mtcarsข้อมูล:

fit <- lm(mpg~hp, data=mtcars)
summary(fit)

Call:
lm(formula = mpg ~ hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.7121 -2.1122 -0.8854  1.5819  8.2360 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
hp          -0.06823    0.01012  -6.742 1.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.863 on 30 degrees of freedom
Multiple R-squared:  0.6024,    Adjusted R-squared:  0.5892 
F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

คลาดเคลื่อนกำลังสองเฉลี่ย (MSE) เป็นค่าเฉลี่ยของตารางของเศษที่:

# Mean squared error
mse <- mean(residuals(fit)^2)
mse
[1] 13.98982

Root Mean squared error (RMSE) เป็นค่ารากที่สองของ MSE:

# Root mean squared error
rmse <- sqrt(mse)
rmse
[1] 3.740297

ผลรวมที่เหลือของกำลังสอง (RSS) คือผลรวมของค่าตกค้างกำลังสอง:

# Residual sum of squares
rss <- sum(residuals(fit)^2)
rss
[1] 447.6743

ข้อผิดพลาดมาตรฐานที่เหลือ (RSE) คือรากที่สองของ (RSS / องศาอิสระ):

# Residual standard error
rse <- sqrt( sum(residuals(fit)^2) / fit$df.residual ) 
rse
[1] 3.862962

การคำนวณเดียวกันง่ายขึ้นเพราะเราได้คำนวณมาก่อนหน้านี้rss:

sqrt(rss / fit$df.residual)
[1] 3.862962

ข้อผิดพลาดการทดสอบคำศัพท์ในบริบทของการถดถอย (และเทคนิคการวิเคราะห์เชิงพยากรณ์อื่น ๆ ) มักจะหมายถึงการคำนวณสถิติการทดสอบข้อมูลการทดสอบแตกต่างจากข้อมูลการฝึกอบรมของคุณ

กล่าวอีกนัยหนึ่งคุณประเมินโมเดลโดยใช้ส่วนหนึ่งของข้อมูลของคุณ (มักเป็นตัวอย่าง 80%) จากนั้นคำนวณข้อผิดพลาดโดยใช้ตัวอย่างที่ระงับ อีกครั้งฉันแสดงการใช้mtcarsคราวนี้กับตัวอย่าง 80%

set.seed(42)
train <- sample.int(nrow(mtcars), 26)
train
 [1] 30 32  9 25 18 15 20  4 16 17 11 24 19  5 31 21 23  2  7  8 22 27 10 28  1 29

ประเมินโมเดลจากนั้นทำนายด้วยข้อมูลที่ระงับไว้:

fit <- lm(mpg~hp, data=mtcars[train, ])
pred <- predict(fit, newdata=mtcars[-train, ])
pred
 Datsun 710     Valiant  Merc 450SE  Merc 450SL Merc 450SLC   Fiat X1-9 
   24.08103    23.26331    18.15257    18.15257    18.15257    25.92090 

รวมข้อมูลดั้งเดิมและการทำนายไว้ในกรอบข้อมูล

test <- data.frame(actual=mtcars$mpg[-train], pred)
    test$error <- with(test, pred-actual)
test
            actual     pred      error
Datsun 710    22.8 24.08103  1.2810309
Valiant       18.1 23.26331  5.1633124
Merc 450SE    16.4 18.15257  1.7525717
Merc 450SL    17.3 18.15257  0.8525717
Merc 450SLC   15.2 18.15257  2.9525717
Fiat X1-9     27.3 25.92090 -1.3791024

ตอนนี้คำนวณสถิติการทดสอบของคุณในวิธีปกติ ฉันแสดง MSE และ RMSE:

test.mse <- with(test, mean(error^2))
test.mse
[1] 7.119804

test.rmse <- sqrt(test.mse)
test.rmse
[1] 2.668296

โปรดทราบว่าคำตอบนี้ไม่ต้องคำนึงถึงน้ำหนักของข้อสังเกต


ขอบคุณสำหรับคำตอบนี้มันช่วยให้ฉันเข้าใจจริงๆ ในการทำบทเรียนการวิจัยของดาต้าแคมป์ในแบบจำลองจะอธิบายสูตรที่แตกต่างจากของคุณสำหรับ RMSE ฉันพบหน้านี้หลังจากการค้นหาโดย Google สูตรที่คุณให้สำหรับ RMSE ใช้งานง่ายและเข้าใจง่าย การคำนวณของพวกเขาสำหรับ RMSE นั้นเกี่ยวข้องกับองศาอิสระในตัวส่วน นอกจากนี้ถ้าฉันอ่านโพสต์ของพวกเขาอย่างถูกต้องพวกเขาบอกว่า R เรียก RMSE ข้อผิดพลาดมาตรฐานที่เหลือ แต่จากคำตอบของคุณเหล่านี้เป็นตัวชี้วัดการประเมินผลที่แตกต่างกัน คิด?
Doug Fir

21

โปสเตอร์ต้นฉบับขอคำตอบ "อธิบายเหมือนฉัน 5" สมมติว่าครูในโรงเรียนของคุณเชิญคุณและเพื่อนร่วมโรงเรียนมาช่วยเดาความกว้างโต๊ะของครู นักเรียน 20 คนในชั้นเรียนแต่ละคนสามารถเลือกอุปกรณ์ (ไม้บรรทัด, สเกล, เทปหรือปทัฏฐาน) และได้รับอนุญาตให้วัดตาราง 10 ครั้ง คุณทุกคนจะถูกขอให้ใช้ตำแหน่งเริ่มต้นที่แตกต่างกันบนอุปกรณ์เพื่อหลีกเลี่ยงการอ่านหมายเลขเดิมซ้ำแล้วซ้ำอีก การอ่านเริ่มต้นนั้นจะต้องถูกลบออกจากการอ่านจบไปจนได้การวัดความกว้างหนึ่งอัน (คุณเพิ่งเรียนรู้วิธีทำคณิตศาสตร์ประเภทนั้น)

มีการวัดความกว้างทั้งหมด 200 ชั้น (นักเรียน 20 คน, 10 การวัดแต่ละคน) การสังเกตถูกส่งมอบให้กับครูที่จะกระทืบตัวเลข ลบข้อสังเกตของนักเรียนแต่ละคนจากค่าอ้างอิงที่จะส่งผลในอีก 200 หมายเลขที่เรียกว่าการเบี่ยงเบน ค่าเฉลี่ยครูตัวอย่างของนักเรียนแต่ละคนแยกกันได้รับ 20 หมายถึง ลบข้อสังเกตของนักเรียนแต่ละคนจากค่าเฉลี่ยของแต่ละคนจะมีผลใน 200 เบี่ยงเบนไปจากค่าเฉลี่ยที่เรียกว่าเหลือ หากมีการคำนวณค่าเฉลี่ยที่เหลือสำหรับแต่ละตัวอย่างคุณจะสังเกตเห็นว่ามันเป็นศูนย์เสมอ ถ้าเรายกกำลังสองแต่ละส่วนที่เหลือให้หาค่าเฉลี่ยพวกมันและเลิกทำสแควร์ในที่สุดเราก็ได้ค่าเบี่ยงเบนมาตรฐาน. (โดยวิธีนี้เราเรียกว่าการคำนวณครั้งสุดท้ายบิตสแควร์รูท (คิดว่าการค้นหาฐานหรือด้านข้างของสแควร์ที่กำหนด) ดังนั้นการดำเนินการทั้งหมดมักจะเรียกว่ารูต - เฉลี่ย - สแควร์สำหรับระยะสั้น; ค่าเฉลี่ยรากที่สองของส่วนที่เหลือ)

แต่ครูรู้ถึงความกว้างของตารางที่แท้จริงแล้วโดยพิจารณาจากการออกแบบและสร้างและตรวจสอบในโรงงาน ดังนั้นอีก 200 ตัวเลขที่เรียกว่าข้อผิดพลาดสามารถคำนวณได้เช่นเดียวกับการเบี่ยงเบนของการสังเกตเทียบกับความกว้างจริง ข้อผิดพลาดเฉลี่ยสามารถคำนวณสำหรับตัวอย่างนักเรียนแต่ละคน ส่วนเบี่ยงเบนมาตรฐาน 20 ของข้อผิดพลาดหรือข้อผิดพลาดมาตรฐานสามารถคำนวณได้สำหรับการสังเกต ข้อผิดพลาดรูทค่าเฉลี่ย 20 ข้อเพิ่มเติมค่าสามารถคำนวณได้เช่นกัน ค่าสามชุดที่สัมพันธ์กันเป็น sqrt (me ^ 2 + se ^ 2) = rmse ตามลำดับการปรากฏ จาก rmse ครูสามารถตัดสินได้ว่านักเรียนให้ค่าประมาณความกว้างของตารางที่ดีที่สุด นอกจากนี้เมื่อดูแยกกันที่ข้อผิดพลาด 20 ค่าเฉลี่ยและค่าความผิดพลาดมาตรฐาน 20 ค่าครูสามารถสอนนักเรียนแต่ละคนถึงวิธีการปรับปรุงการอ่านของพวกเขา

ในการตรวจสอบครูลบแต่ละข้อผิดพลาดจากข้อผิดพลาดเฉลี่ยของพวกเขาทำให้เกิดอีก 200 ตัวเลขซึ่งเราจะเรียกข้อผิดพลาดที่เหลือ (ที่ไม่ได้ทำบ่อย) ดังกล่าวข้างต้นหมายถึงข้อผิดพลาดที่เหลือเป็นศูนย์ดังนั้นค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดที่เหลือหรือข้อผิดพลาดมาตรฐานที่เหลือจะเหมือนกับข้อผิดพลาดมาตรฐานและในความเป็นจริงดังนั้นข้อผิดพลาดที่เหลือรากหมายถึงตารางเช่นกัน (ดูรายละเอียดด้านล่าง)

ตอนนี้ที่นี่เป็นสิ่งที่ครูสนใจ เราสามารถเปรียบเทียบค่าเฉลี่ยของนักเรียนแต่ละคนกับส่วนที่เหลือของชั้นเรียน (รวม 20 ค่าเฉลี่ย) เช่นเดียวกับที่เรานิยามก่อนค่าของจุดเหล่านี้:

  • m: หมายถึง (จากการสังเกต)
  • s: ส่วนเบี่ยงเบนมาตรฐาน (จากการสังเกต)
  • ฉัน: หมายถึงข้อผิดพลาด (จากการสังเกต)
  • se: ข้อผิดพลาดมาตรฐาน (จากการสังเกต)
  • rmse: ข้อผิดพลาดรูต - เฉลี่ย - สแควร์ (จากการสังเกต)

เราสามารถกำหนดได้ทันที:

  • mm: ค่าเฉลี่ยของค่าเฉลี่ย
  • sm: ค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย
  • mem: ข้อผิดพลาดเฉลี่ยของค่าเฉลี่ย
  • sem: ข้อผิดพลาดมาตรฐานของค่าเฉลี่ย
  • rmsem: ข้อผิดพลาดรูต - เฉลี่ย - สแควร์ของค่าเฉลี่ย

เฉพาะในกรณีที่ชั้นเรียนของนักเรียนถูกกล่าวว่าไม่เอนเอียงคือถ้า mem = 0 ดังนั้น sem = sm = rmsem; คือข้อผิดพลาดมาตรฐานของค่าเฉลี่ยค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยและข้อผิดพลาดรูต - เฉลี่ย - สแควร์ค่าเฉลี่ยอาจเหมือนกันหากข้อผิดพลาดเฉลี่ยของค่าเฉลี่ยเป็นศูนย์

หากเรามีตัวอย่างเพียงตัวอย่างเดียวคือถ้ามีนักเรียนเพียงคนเดียวในชั้นเรียนค่าเบี่ยงเบนมาตรฐานของการสังเกตสามารถนำมาใช้ในการประมาณค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย (sm) เช่น sm ^ 2 ~ s ^ 2 / n โดยที่ n = 10 คือขนาดตัวอย่าง (จำนวนการอ่านต่อนักเรียน) ทั้งสองจะตกลงกันได้ดีขึ้นเมื่อขนาดตัวอย่างโตขึ้น (n = 10,11, ... ; การอ่านต่อนักเรียนมากขึ้น) และจำนวนตัวอย่างเพิ่มขึ้น (n '= 20,21, ... ; นักเรียนในห้องเรียนมากขึ้น) (ข้อแม้: "ข้อผิดพลาดมาตรฐาน" ที่ไม่เหมาะสมมักอ้างถึงข้อผิดพลาดมาตรฐานของค่าเฉลี่ยไม่ใช่ข้อผิดพลาดมาตรฐานของการสังเกต)

นี่คือรายละเอียดบางส่วนของการคำนวณที่เกี่ยวข้อง ค่าที่แท้จริงคือแสดงว่า t

การทำงานแบบ Set-to-point:

  • หมายถึง: MEAN (X)
  • รูทค่าเฉลี่ยสี่เหลี่ยม: RMS (X)
  • ค่าเบี่ยงเบนมาตรฐาน: SD (X) = RMS (X-MEAN (X))

ชุดตัวอย่างภายใน:

  • การสังเกต (ให้ไว้), X = {x_i}, i = 1, 2, ... , n = 10
  • การเบี่ยงเบน: ความแตกต่างของเซตเทียบกับจุดคงที่
  • ของเหลือ: การเบี่ยงเบนของการสังเกตจากค่าเฉลี่ย, R = Xm
  • ข้อผิดพลาด: การเบี่ยงเบนของการสังเกตจากมูลค่าที่แท้จริง, E = Xt
  • ข้อผิดพลาดที่เหลือ: การเบี่ยงเบนข้อผิดพลาดจากค่าเฉลี่ยของพวกเขา RE = E-MEAN (E)

จุดภายในตัวอย่าง (ดูตารางที่ 1):

  • m: หมายถึง (จากการสังเกต)
  • s: ส่วนเบี่ยงเบนมาตรฐาน (จากการสังเกต)
  • ฉัน: หมายถึงข้อผิดพลาด (จากการสังเกต)
  • se: ข้อผิดพลาดมาตรฐานของการสังเกต
  • rmse: ข้อผิดพลาดรูต - เฉลี่ย - สแควร์ (จากการสังเกต)

ตารางที่ 1

ชุดตัวอย่าง (ENSEMBLE):

  • หมายถึง M = {m_j}, j = 1, 2, ... , n '= 20
  • ค่าตกค้างของค่าเฉลี่ย: การเบี่ยงเบนของค่าเฉลี่ยจากค่าเฉลี่ย, RM = M-mm
  • ข้อผิดพลาดของค่าเฉลี่ย: การเบี่ยงเบนของค่าเฉลี่ยจาก "ความจริง", EM = Mt.
  • ข้อผิดพลาดที่เหลือของค่าเฉลี่ย: การเบี่ยงเบนความผิดพลาดของค่าเฉลี่ยจากค่าเฉลี่ย, REM = EM-MEAN (EM)

จุดตัวอย่าง (ENSEMBLE) (ดูตารางที่ 2):

  • mm: ค่าเฉลี่ยของค่าเฉลี่ย
  • sm: ค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ย
  • mem: ข้อผิดพลาดเฉลี่ยของค่าเฉลี่ย
  • sem: ข้อผิดพลาดมาตรฐาน (ของค่าเฉลี่ย)
  • rmsem: ข้อผิดพลาดรูต - เฉลี่ย - สแควร์ของค่าเฉลี่ย

ตารางที่ 2


0

ฉันรู้สึกว่าคำศัพท์ทั้งหมดนั้นสับสนมาก ฉันรู้สึกอย่างยิ่งว่ามีความจำเป็นที่จะต้องอธิบายว่าทำไมเราจึงมีตัวชี้วัดมากมาย

นี่คือบันทึกของฉันเกี่ยวกับ SSE และ RMSE:

การวัดครั้งแรก: ผลรวมของ Squared Errors (SSE) ชื่ออื่น, ผลรวมที่เหลือของกำลังสอง (RSS), ผลรวมของกำลังสองตกค้าง (SSR)

หากเราอยู่ในชุมชนการปรับให้เหมาะสมจะใช้ SSE อย่างกว้างขวาง เป็นเพราะมันมีวัตถุประสงค์ในการเพิ่มประสิทธิภาพที่การเพิ่มประสิทธิภาพคือ

ลดβ Xβ-Y2

อี=Xβ-Yอี2=อีTอี

ประการที่สองเมตริก: รากเฉลี่ยตารางข้อผิดพลาด (RMSE) ชื่ออื่น ๆ การเบี่ยงเบนของรูตเฉลี่ย - กำลังสอง

RMSE คือ

1ยังไม่มีข้อความ(Xβ-Y)=1ยังไม่มีข้อความอีTอี

ยังไม่มีข้อความ

Y

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.