การถดถอยเชิงเส้นสิ่งที่สถิติ F, R กำลังสองและข้อผิดพลาดมาตรฐานที่เหลือบอกเรา?


14

ฉันสับสนจริง ๆ เกี่ยวกับความแตกต่างของความหมายเกี่ยวกับบริบทของการถดถอยเชิงเส้นของเงื่อนไขต่อไปนี้:

  • สถิติ F
  • R กำลังสอง
  • ข้อผิดพลาดมาตรฐานที่เหลือ

ฉันพบwebstie นี้ซึ่งให้ข้อมูลเชิงลึกที่ดีกับฉันเกี่ยวกับเงื่อนไขต่าง ๆ ที่เกี่ยวข้องกับการถดถอยเชิงเส้นอย่างไรก็ตามเงื่อนไขดังกล่าวข้างต้นดูเหมือนจะค่อนข้างมาก (เท่าที่ฉันเข้าใจ) ฉันจะอ้างอิงสิ่งที่ฉันอ่านและสิ่งที่ทำให้ฉันสับสน:

ข้อผิดพลาดมาตรฐานที่เหลือคือการวัดคุณภาพของการถดถอยเชิงเส้น ....... ข้อผิดพลาดมาตรฐานที่เหลือคือจำนวนเฉลี่ยที่การตอบสนอง (dist) จะเบี่ยงเบนจากเส้นการถดถอยที่แท้จริง

1.นี่คือระยะทางเฉลี่ยของค่าสังเกตจากเส้น lm จริงหรือไม่

สถิติ R-squared ให้การวัดความแม่นยำของแบบจำลองที่เหมาะสมกับข้อมูลจริง

2.ตอนนี้ฉันสับสนเพราะถ้า RSE บอกเราว่าจุดสังเกตที่เราเบี่ยงเบนไปจากเส้นถดถอยไกลแค่ไหน RSE ต่ำบอกจริง ๆ ว่า "แบบจำลองของคุณเหมาะสมกับจุดข้อมูลที่สังเกต" -> ดีอย่างไร รุ่นพอดีดังนั้นความแตกต่างระหว่าง R กำลังสองและ RSE คืออะไร?

สถิติ F เป็นตัวบ่งชี้ที่ดีว่ามีความสัมพันธ์ระหว่างตัวทำนายของเรากับตัวแปรตอบสนองหรือไม่

3.จริงหรือไม่ที่เราสามารถมีค่า F ระบุความสัมพันธ์ที่แข็งแกร่งที่ไม่ใช่เชิงเส้นเพื่อให้ RSE ของเราสูงและ R กำลังสองของเราต่ำ


Q 3 Fvalue ไม่ได้ระบุว่าความสัมพันธ์แบบไม่เชิงเส้น เป็นอัตราส่วนที่บ่งชี้ว่ามีความสัมพันธ์ที่สำคัญ (คงที่) ระหว่างตัวแปรสองตัวที่ขึ้นอยู่กับอิสระ
Subhash C. Davar

มันไม่ได้บอกเราถึงลักษณะของความสัมพันธ์ - ไม่เชิงเส้นหรือเชิงเส้น
Subhash C. Davar

คำตอบ:


12

วิธีที่ดีที่สุดในการทำความเข้าใจข้อกำหนดเหล่านี้คือทำการคำนวณการถดถอยด้วยมือ ฉันเขียนสองคำตอบที่เกี่ยวข้องอย่างใกล้ชิด ( ที่นี่และที่นี่ ) อย่างไรก็ตามพวกเขาอาจไม่ช่วยให้คุณเข้าใจกรณีของคุณโดยสมบูรณ์ แต่อ่านผ่านพวกเขาอย่างไรก็ตาม บางทีพวกเขาอาจจะช่วยให้คุณนึกถึงข้อกำหนดเหล่านี้ได้ดีขึ้น

R2R2RSE

  1. SStotal
  2. SSresidual
  3. SSmodel

แต่ละคนกำลังประเมินว่าตัวแบบอธิบายข้อมูลได้ดีเพียงใดและเป็นผลรวมของระยะทางยกกำลังสองจากจุดข้อมูลไปยังแบบจำลองที่ติดตั้ง (แสดงเป็นเส้นสีแดงในพล็อตด้านล่าง)

SStotalcars

ป้อนคำอธิบายรูปภาพที่นี่

SSresidual

ป้อนคำอธิบายรูปภาพที่นี่

SSmodelSStotalSSresidual

ป้อนคำอธิบายรูปภาพที่นี่

ในการตอบคำถามของคุณอันดับแรกให้คำนวณคำศัพท์ที่คุณต้องการเข้าใจเริ่มต้นด้วยรูปแบบและผลลัพธ์เป็นข้อมูลอ้างอิง:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

ผลบวกของกำลังสองคือระยะกำลังสองของข้อมูลแต่ละจุดที่ชี้ไปที่โมเดล:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

ค่าเฉลี่ยกำลังสองเป็นผลบวกกำลังสองเฉลี่ยโดยระดับความเป็นอิสระ:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

คำตอบสำหรับคำถามของคุณ:

Q1:

  1. นี่คือระยะทางเฉลี่ยของค่าสังเกตจากเส้น lm จริงหรือไม่

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSEแสดงระยะทางเฉลี่ยของข้อมูลที่สังเกตได้จากตัวแบบ สังหรณ์ใจสิ่งนี้ก็สมเหตุสมผลดีเพราะถ้าระยะทางน้อยกว่าโมเดลของคุณก็ดีกว่า

Q2:

  1. ตอนนี้ฉันสับสนเพราะถ้า RSE บอกเราว่าจุดสังเกตที่เราเบี่ยงเบนไปจากเส้นถดถอยไกลแค่ไหน RSE ต่ำบอกจริง ๆ ว่า "แบบจำลองของคุณเหมาะสมกับจุดข้อมูลที่สังเกต" -> ดังนั้นแบบจำลองของเราจึงเหมาะสม แล้วความแตกต่างระหว่าง R กำลังสองกับ RSE คืออะไร?

R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel

RSER2RSE

R2

Q3:

  1. จริงหรือไม่ที่เราสามารถมีค่า F ระบุความสัมพันธ์ที่แข็งแกร่งที่ไม่ใช่เชิงเส้นเพื่อให้ RSE ของเราสูงและ R กำลังสองของเราต่ำ

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

คำถามที่สามของคุณนั้นยากที่จะเข้าใจ แต่ฉันเห็นด้วยกับข้อความที่คุณให้ไว้



0

เพียงเพื่อเสริมสิ่งที่ Chris ตอบกลับด้านบน:

F-statistic คือการหารของกำลังสองเฉลี่ยและกำลังสองเฉลี่ย ซอฟต์แวร์เช่น Stata หลังจากปรับโมเดลการถดถอยให้ค่า p-value ที่เกี่ยวข้องกับสถิติ F สิ่งนี้ช่วยให้คุณทดสอบสมมติฐานว่างได้ว่าสัมประสิทธิ์ของโมเดลเป็นศูนย์ คุณอาจคิดว่ามันเป็น "นัยสำคัญทางสถิติของโมเดลโดยรวม"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.