ทำไมค่า R-squared ต่ำมากเมื่อสถิติ t ของฉันใหญ่มาก


17

ฉันทำการถดถอยด้วยตัวแปร 4 ตัวและทั้งหมดมีความสำคัญทางสถิติโดยมีค่า Tและ31 (ฉันพูดว่าเพราะดูเหมือนว่าไม่เกี่ยวข้องกับการรวมทศนิยม) ซึ่งสูงมากและมีความสำคัญอย่างชัดเจน แต่R 2นั้นเป็นเพียง. 2284 ฉันตีความตีความค่า t ที่นี่เพื่อหมายถึงบางสิ่งที่ไม่ได้ใช่หรือไม่ ปฏิกิริยาแรกของฉันเมื่อเห็นค่า t คือว่าR 2จะค่อนข้างสูง แต่อาจจะสูงR 2หรือไม่?7,9,2631R2R2R2


1
ฉันเดิมพันของคุณมีขนาดใหญ่พอสมควรใช่มั้ย? n
Glen_b -Reinstate Monica

@Glen_b ใช่ประมาณ 6,000
Kyle

10
จากนั้นมีขนาดใหญ่ -statistics การเชื่อมโยงกับขนาดเล็กR 2เป็นธรรมดาอย่างสิ้นเชิง เนื่องจากข้อผิดพลาดมาตรฐานลดลงเป็น1 / tR2 ,t-ratios จะเพิ่มขึ้นเป็น1/ntขณะR2จะมีแนวโน้มที่จะยังคงอยู่อย่างต่อเนื่องกับการเพิ่มn ทำไมคุณถึงสนใจว่าR2คืออะไร? ทำไมคุณถึงสนใจว่า t-ratios คืออะไร nR2nR2
Glen_b -Reinstate Monica

คำตอบ:


45

ค่าtและค่าR2ถูกใช้เพื่อตัดสินสิ่งต่าง ๆ อย่างมาก t -values จะใช้ในการตัดสิน accurary ของประมาณการของคุณของβi 's แต่R2มาตรการจำนวนของการเปลี่ยนแปลงในตัวแปรตอบสนองของคุณอธิบายโดยตัวแปรของคุณ สมมติว่าคุณกำลังประเมินโมเดลการถดถอยด้วยการสังเกตn

Yi=β0+β1X1i+...+βkXki+ϵi

ที่ϵii.i.dN(0,σ2) , i=1,...,n .

ขนาดใหญ่t -values (ในค่าสัมบูรณ์) นำคุณไปสู่ปฏิเสธสมมติฐานที่βi=0 0 ซึ่งหมายความว่าคุณมั่นใจได้ว่าคุณได้ประเมินเครื่องหมายของสัมประสิทธิ์อย่างถูกต้อง นอกจากนี้หาก|t|> 4 และคุณมีn>5แล้ว 0 ไม่อยู่ในช่วงความมั่นใจ 99% สำหรับค่าสัมประสิทธิ์ t -value สำหรับค่าสัมประสิทธิ์βiคือความแตกต่างระหว่างการประมาณการβi^และ 0 ปกติโดยข้อผิดพลาดมาตรฐานse{βi^} }

t=βi^se{βi^}

ซึ่งเป็นเพียงการประมาณหารด้วยการวัดความแปรปรวน หากคุณมีชุดข้อมูลที่มีขนาดใหญ่พอที่คุณมักจะมีนัยสำคัญทางสถิติ (ขนาดใหญ่) t -values สิ่งนี้ไม่ได้หมายความว่าแปลว่าเพื่อนร่วมงานของคุณอธิบายถึงความแปรปรวนจำนวนมากในตัวแปรตอบกลับ

ดังที่ @Stat ถูกกล่าวถึงR2วัดปริมาณความแปรปรวนในตัวแปรตอบสนองของคุณซึ่งอธิบายโดยตัวแปรตาม สำหรับข้อมูลเพิ่มเติมเกี่ยวR2ไปที่วิกิพีเดีย ในกรณีของคุณก็จะปรากฏขึ้นคุณมีขนาดใหญ่ชุดข้อมูลเพียงพอที่จะต้องประเมินβi 's แต่ตัวแปรของคุณจะได้งานที่ดีของการอธิบายและ \ หรือทำนายค่าการตอบสนอง


1
(+1) It is clear from the very beginning that this is a well considered, informative explanation.
whuber

Nice answer. I find the terms "practical significance" and "statistical significance" to often be helpful in thinking about this issue.
Aaron - Reinstate Monica

3
There is also a simple transformation between the two statistics: R2=t2t2+df
Jeff

7

To say the same thing as caburke but more simply, you are very confidant that the average response caused by your variables is not zero. But there are lots of other things that you don't have in the regression that cause the response to jump around.


0

Could it be that although your predictors are trending linearly in terms of your response variable (slope is significantly different from zero), which makes the t values significant, but the R squared is low because the errors are large, which means that the variability in your data is large and thus your regression model is not a good fit (predictions aren't as accurate)?

Just my 2 cents.

Perhaps this post can help: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values


0

Several answers given are close but still wrong.

"The t-values are used to judge the accurary of your estimate of the βi's" is the one that concerns me the most.

The T-value is merely an indication of the likelihood of random occurrence. Large means unlikely. Small means very likely. Positive and Negative don't matter to the likelihood interpretation.

"R2 measures the amount of variation in your response variable explained by your covariates" is correct.

(I would have commented but am not allowed by this platform yet.)


2
You seem to write about t-values as if they were p-values.
whuber

-4

The only way to deal with a small R squared, check the following:

  1. Is your sample size large enough? If yes, do step 2. but if no, increase your sample size.
  2. How many covariates did you use for your model estimation? If more than 1 as in your case, deal with the problem of multicolinearity of the covariates or simply, run the regression again and this time without the constant which is known as beta zero.

  3. However, if the problem still persists, then do a stepwise regression and select the model with a high R squared. But which I cannot recommend to you because it brings about bias in the covariates

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.