วิธีที่ดีที่สุดในการทำความเข้าใจข้อกำหนดเหล่านี้คือทำการคำนวณการถดถอยด้วยมือ ฉันเขียนสองคำตอบที่เกี่ยวข้องอย่างใกล้ชิด ( ที่นี่และที่นี่ ) อย่างไรก็ตามพวกเขาอาจไม่ช่วยให้คุณเข้าใจกรณีของคุณโดยสมบูรณ์ แต่อ่านผ่านพวกเขาอย่างไรก็ตาม บางทีพวกเขาอาจจะช่วยให้คุณนึกถึงข้อกำหนดเหล่านี้ได้ดีขึ้น
R2R2R SE
- SSt o t a l
- SSr e s i dคุณa l
- SSm o de l
แต่ละคนกำลังประเมินว่าตัวแบบอธิบายข้อมูลได้ดีเพียงใดและเป็นผลรวมของระยะทางยกกำลังสองจากจุดข้อมูลไปยังแบบจำลองที่ติดตั้ง (แสดงเป็นเส้นสีแดงในพล็อตด้านล่าง)
SSt o t a lcars
SSr e s i dคุณa l
SSm o de lSSt o t a lSSr e s i dคุณa l
ในการตอบคำถามของคุณอันดับแรกให้คำนวณคำศัพท์ที่คุณต้องการเข้าใจเริ่มต้นด้วยรูปแบบและผลลัพธ์เป็นข้อมูลอ้างอิง:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
ผลบวกของกำลังสองคือระยะกำลังสองของข้อมูลแต่ละจุดที่ชี้ไปที่โมเดล:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
ค่าเฉลี่ยกำลังสองเป็นผลบวกกำลังสองเฉลี่ยโดยระดับความเป็นอิสระ:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
คำตอบสำหรับคำถามของคุณ:
Q1:
- นี่คือระยะทางเฉลี่ยของค่าสังเกตจากเส้น lm จริงหรือไม่
R SEMSr e s i dคุณa l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSr e s i dคุณa lMSr e s i dคุณa l SSr e s i dคุณa lR SEแสดงระยะทางเฉลี่ยของข้อมูลที่สังเกตได้จากตัวแบบ สังหรณ์ใจสิ่งนี้ก็สมเหตุสมผลดีเพราะถ้าระยะทางน้อยกว่าโมเดลของคุณก็ดีกว่า
Q2:
- ตอนนี้ฉันสับสนเพราะถ้า RSE บอกเราว่าจุดสังเกตที่เราเบี่ยงเบนไปจากเส้นถดถอยไกลแค่ไหน RSE ต่ำบอกจริง ๆ ว่า "แบบจำลองของคุณเหมาะสมกับจุดข้อมูลที่สังเกต" -> ดังนั้นแบบจำลองของเราจึงเหมาะสม แล้วความแตกต่างระหว่าง R กำลังสองกับ RSE คืออะไร?
R2SSm o de lSSt o t a l
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SStotalSSmodel
RSER2RSE
R2
Q3:
- จริงหรือไม่ที่เราสามารถมีค่า F ระบุความสัมพันธ์ที่แข็งแกร่งที่ไม่ใช่เชิงเส้นเพื่อให้ RSE ของเราสูงและ R กำลังสองของเราต่ำ
FMSmodelMSresidual
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
คำถามที่สามของคุณนั้นยากที่จะเข้าใจ แต่ฉันเห็นด้วยกับข้อความที่คุณให้ไว้