การตีความเอาต์พุตของ R's lm ()


234

หน้าความช่วยเหลือใน R คิดว่าฉันรู้ว่าตัวเลขเหล่านั้นมีความหมายอย่างไร แต่ฉันไม่เข้าใจ ฉันพยายามที่จะเข้าใจตัวเลขทุกตัวที่นี่อย่างสังหรณ์ใจ ฉันจะโพสต์ผลลัพธ์และแสดงความคิดเห็นในสิ่งที่ฉันค้นพบ อาจมี (จะ) ผิดพลาดอย่างฉันจะเขียนสิ่งที่ฉันคิด ส่วนใหญ่ฉันต้องการทราบว่าค่า t ในสัมประสิทธิ์หมายความว่าอย่างไรและทำไมพวกเขาพิมพ์ข้อผิดพลาดมาตรฐานที่เหลือ

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

นี่คือสรุป 5 จุดของส่วนที่เหลือ (ค่าเฉลี่ยของพวกเขาคือ 0 เสมอใช่ไหม) ตัวเลขสามารถใช้ (ฉันเดาที่นี่) เพื่อดูว่ามีค่าผิดปกติใหญ่ ๆ อย่างรวดเร็วหรือไม่ นอกจากนี้คุณสามารถดูได้ที่นี่หากส่วนที่เหลืออยู่ไกลจากการกระจายปกติ (พวกเขาควรจะกระจายตามปกติ)

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

ค่าประมาณคำนวณโดยการถดถอยกำลังสองน้อยที่สุด นอกจากนี้ยังมีข้อผิดพลาดมาตรฐานคือbeta_i} ฉันต้องการทราบวิธีคำนวณสิ่งนี้อย่างไร ฉันไม่รู้เลยว่าค่า t และค่า p ที่สอดคล้องกันมาจากไหน ฉันรู้ว่าควรจะกระจายได้ตามปกติ แต่ค่า t คำนวณอย่างไรβi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵฉันเดา แต่ทำไมเราคำนวณสิ่งนั้นและมันบอกอะไรเรา

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2ซึ่งคือ2} อัตราส่วนใกล้เคียงกับ 1 หากจุดอยู่ในแนวเส้นตรงและ 0 ถ้าพวกเขาเป็นแบบสุ่ม R-squared ที่ปรับแล้วคืออะไร?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F และ p สำหรับทั้งโมเดลไม่เพียง แต่สำหรับเดียวก่อนหน้านี้ ค่า F เป็น\} ยิ่งมีขนาดใหญ่ขึ้นเท่าใดก็ยิ่งมีโอกาสมากขึ้นที่จะไม่มีผลกระทบใด ๆ เลยβisy^2ϵiβ


ส่วนที่เหลือจะไม่เบี่ยงเบนไปจากมาตรฐานดังนั้นทำไมคุณถึงคิดเช่นนั้น?
nico

@ นิโก้: ฉันคิดว่า @Alexx Hardt กำลังพูดสมมุติ เช่นครั้งเดียวสามารถใช้สรุปหมายเลขห้าเพื่อดูว่าเศษเบี่ยงเบนไปจากปกติ
กาวินซิมป์สัน

@ กาวินซิมป์สัน: ถูกต้องฉันเข้าใจผิดประโยค ไม่ต้องสนใจความคิดเห็นก่อนหน้าของฉัน
nico

9
การพูดคลุมเครือเล็กน้อย: คุณไม่สามารถพูดอะไรเกี่ยวกับความปกติหรือไม่ปกติบนพื้นฐานของ 5 quantiles เหล่านั้นเพียงอย่างเดียว ทั้งหมดที่คุณสามารถพูดได้ตามสรุปนั้นคือว่าค่าประมาณที่เหลืออยู่ประมาณสมมาตรรอบศูนย์หรือไม่ คุณสามารถหารปริมาณที่รายงานได้โดยความคลาดเคลื่อนมาตรฐานที่เหลือโดยประมาณและเปรียบเทียบค่าเหล่านี้กับปริมาณที่เกี่ยวข้องของ N (0,1) แต่การดูที่ QQ-plot น่าจะสมเหตุสมผลมากกว่า
fabians

5
หนึ่งทราบที่นี่: รุ่นไม่ค่อนข้างจะเป็น{} อธิบายไว้อย่างถูกต้องในคำตอบด้านล่าง แต่ไม่ได้กล่าวถึงอย่างชัดเจนว่ามีการระบุผิดในคำถามดังนั้นบางคนอาจไม่เห็นความแตกต่าง FSSmodel/SSerrorMSmodel/MSerrorF
gung

คำตอบ:


202

สรุปห้าจุด

ใช่ความคิดคือการให้การสรุปอย่างรวดเร็วของการกระจาย มันควรจะมีความสมมาตรเกี่ยวกับค่าเฉลี่ยโดยประมาณค่ามัธยฐานควรอยู่ใกล้กับ 0, ค่า 1Q และ 3Q ควรเป็นค่าที่ใกล้เคียงกัน

ค่าสัมประสิทธิ์และβi^s

สัมประสิทธิ์แต่ละแบบคือตัวแปรสุ่มแบบเกาส์ (ปกติ) เป็นประมาณการของค่าเฉลี่ยของการกระจายของตัวแปรสุ่มที่และข้อผิดพลาดมาตรฐานคือรากที่สองของความแปรปรวนของการกระจายว่า มันเป็นตัวชี้วัดของความไม่แน่นอนในการประมาณการของที่beta_i}βi^βi^

คุณสามารถดูวิธีการเหล่านี้จะคำนวณ (ดีสูตรทางคณิตศาสตร์ที่ใช้) บนวิกิพีเดีย โปรดทราบว่าโปรแกรมสถิติการเคารพตนเองจะไม่ใช้สมการทางคณิตศาสตร์มาตรฐานเพื่อคำนวณเพราะการทำสิ่งเหล่านี้บนคอมพิวเตอร์สามารถนำไปสู่การสูญเสียความแม่นยำอย่างมากในการคำนวณβi^

t -statistics

สถิติที่มีการประมาณการไว้ ( ) หารด้วยข้อผิดพลาดมาตรฐาน ( ) เช่นsigma_i}} สมมติว่าคุณมีโมเดลเดียวกันในวัตถุเป็น Q ของคุณ:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

ดังนั้นค่ารายงาน R จะถูกคำนวณดังนี้:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

ที่ไหนcoef(mod)เป็นและช่วยให้รากขององค์ประกอบเส้นทแยงมุมของเมทริกซ์ความแปรปรวนของพารามิเตอร์แบบซึ่งเป็นข้อผิดพลาดมาตรฐานของพารามิเตอร์ ( )βi^sqrt(diag(vcov(mod)))σi^

p-value คือความน่าจะเป็นที่จะได้ค่ามีขนาดใหญ่เป็นหรือมีขนาดใหญ่กว่าที่สังเกตค่าทีแน่นอนถ้าสมมติฐาน ( ) เป็นความจริงที่เป็น0 พวกเขาคำนวณเป็น (ใช้จากด้านบน):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

ดังนั้นเราคำนวณความน่าจะเป็นหางส่วนบนของการได้ค่าเราได้จากการแจกแจงแบบกับองศาอิสระเท่ากับองศาอิสระที่เหลือของแบบจำลอง นี้แสดงให้เห็นความน่าจะเป็นของความสำเร็จที่ค่ามากกว่าค่าที่แน่นอนของการสังเกต s มันคูณด้วย 2 เพราะแน่นอนว่าสามารถมีขนาดใหญ่ในทิศทางลบได้เช่นกันttttt

ข้อผิดพลาดมาตรฐานที่เหลือ

ข้อผิดพลาดมาตรฐานที่เหลือเป็นค่าประมาณของพารามิเตอร์\สมมติฐานในสี่เหลี่ยมน้อยสามัญที่เหลือจะมีคำอธิบายเป็นรายบุคคลโดยการกระจายแบบเกาส์ (ปกติ) ที่มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน\เกี่ยวข้องกับสมมติฐานแปรปรวนคงที่ แต่ละที่เหลือมีความแปรปรวนเหมือนกันและความแปรปรวนที่เท่ากับ 2σσσσ2

ปรับR2

ปรับคำนวณเป็น:R2

1(1R2)n1np1

การปรับนั้นเหมือนกับแต่ปรับสำหรับความซับซ้อน (เช่นจำนวนพารามิเตอร์) ของแบบจำลอง กำหนดโมเดลที่มีพารามิเตอร์เดียวโดยมีค่าแน่นอนหากเราเพิ่มพารามิเตอร์อื่นลงในโมเดลนี้โมเดลใหม่ของจะต้องเพิ่มขึ้นแม้ว่าพารามิเตอร์ที่เพิ่มเข้ามาจะไม่มีกำลังทางสถิติ ปรับแล้วทำสิ่งนี้โดยรวมถึงจำนวนพารามิเตอร์ในโมเดลR2R2R2R2R2

Fสถิติ

คืออัตราส่วนของความแปรปรวนสอง (คน ) ความแปรปรวนอธิบายโดยพารามิเตอร์ในรูปแบบ (ผลรวมของกำลังสองของการถดถอย SSR) และความแปรปรวนที่เหลือหรือไม่ได้อธิบาย (ผลรวมของกำลังสองของข้อผิดพลาด SSE) คุณสามารถดูได้ดีกว่านี้หากเราได้รับตาราง ANOVA สำหรับรุ่นผ่าน:FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

s จะเหมือนกันในการส่งออก ANOVA และเอาท์พุท คอลัมน์มีสองความแปรปรวนและ22.91 เราสามารถคำนวณความน่าจะเป็นที่จะได้รับที่มีขนาดใหญ่ภายใต้สมมติฐานว่างเปล่าที่ไม่มีผลกระทบจากการแจกแจงแบบกับ 1 และ 148 องศาอิสระ นี่คือสิ่งที่ถูกรายงานในคอลัมน์สุดท้ายของตาราง ANOVA ในกรณีที่ง่าย ๆ ของตัวทำนายแบบต่อเนื่องตัวเดียว (ตามตัวอย่างของคุณ),ซึ่งเป็นเหตุผลที่ค่า p เหมือนกัน ความเท่าเทียมกันนี้มีไว้ในกรณีง่าย ๆ นี้เท่านั้นFsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2


5
@Gavin (+1) การตอบรับที่ยอดเยี่ยมพร้อมภาพประกอบที่ยอดเยี่ยม!
chl

2
งานที่ดี. สิ่งหนึ่งที่คุณอาจชี้แจงเกี่ยวกับการคำนวณค่า t: sqrt (diag (vcov (mod))) สร้าง SE ของค่าประมาณ เหล่านี้เป็น SE เดียวกับที่ส่งออกในการสรุปแบบจำลอง ง่ายขึ้นและชัดเจนขึ้นเพียงเพื่อบอกว่า t = การคาดคะเน / SEestimate ในแง่นั้นมันไม่ต่างกับค่า t อื่น ๆ
Brett

2
(+1) นี่ยอดเยี่ยม สิ่งเดียวที่ฉันเพิ่มคือค่าเหมือนกับสำหรับความชัน (ซึ่งเป็นสาเหตุที่ค่า p เหมือนกัน) แน่นอนนี้ไม่เป็นความจริงกับตัวแปรอธิบายหลายอย่าง Ft2

2
@Jay; ขอบคุณ ฉันคิดถึงการพูดถึงความเท่าเทียมกันเช่นกัน ไม่แน่ใจว่ามันมีรายละเอียดมากเกินไปหรือไม่? ฉันจะโฆษณาบางอย่างเกี่ยวกับเรื่องนี้ในเวลาอันสั้น
Gavin Simpson

2
"จะไม่ใช้สมการทางคณิตศาสตร์มาตรฐานเพื่อคำนวณ" พวกเขาจะใช้อะไร
SmallChess

0

Ronen Israel และ Adrienne Ross (AQR) เขียนบทความที่ดีมากในหัวข้อนี้: การวัดค่าแสง: การใช้และการใช้ผิดวิธี

ในการสรุป (ดู: หน้า 8)

  • โดยทั่วไปยิ่งสูงเท่าโมเดลก็จะอธิบายผลตอบแทนได้ดีขึ้นR2
  • เมื่อสถิติ t- มากกว่าสองเราสามารถพูดด้วยความมั่นใจ 95% (หรือมีโอกาส 5% ที่เราผิด) ว่าการประเมินเบต้านั้นแตกต่างจากสถิติเป็นศูนย์ กล่าวอีกนัยหนึ่งเราสามารถพูดได้ว่าพอร์ตโฟลิโอมีการเปิดเผยปัจจัยอย่างมีนัยสำคัญ

อาร์เอสlm()สรุปคำนวณ Pr(>|t|)p-value ยิ่งค่า p-value ยิ่งเล็กลงเท่าใดก็ยิ่งมีปัจจัยที่สำคัญมากเท่านั้น P-value = 0.05 เป็นเกณฑ์ที่สมเหตุสมผล


6
ชนิดของการแสดงข้อมูลผิดพลาดในบทความนี้สุดขั้วโดย "เมื่อสถิติ t-มากกว่าสองเราสามารถพูดได้ (ด้วย ... โอกาส 5% ที่เราผิด) ซึ่งการประมาณค่าเบต้านั้นแตกต่างจากสถิติเป็นศูนย์" [at p . 11] มีการหารือในที่stats.stackexchange.com/questions/311763และstats.stackexchange.com/questions/26450
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.