มีวิธีที่ฉลาด / ชาญฉลาดในการทำความเข้าใจตัวตนถดถอยเชิงเส้นนี้สำหรับหลาย ๆ


10

ในการถดถอยเชิงเส้นฉันได้พบผลลัพธ์ที่น่ายินดีว่าถ้าเราพอดีกับแบบจำลอง

E[Y]=β1X1+β2X2+c,

แล้วถ้าเราสร้างมาตรฐานและศูนย์ ,และข้อมูลYX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

สิ่งนี้ทำให้ฉันรู้สึกเหมือนเป็นตัวแปร 2 รุ่นของสำหรับการถดถอยซึ่งเป็นที่ชื่นชอบR2=Cor(Y,X)2y=mx+c

แต่ข้อพิสูจน์เดียวที่ฉันรู้ไม่ได้อยู่ในเชิงสร้างสรรค์หรือลึกซึ้ง (ดูด้านล่าง) และยังมองมันรู้สึกว่าควรเข้าใจได้ง่าย

ตัวอย่างความคิด:

  • และพารามิเตอร์ให้เรา 'สัดส่วนของและβ1β2X1X2ในYและดังนั้นเราจึงได้สัดส่วนตามความสัมพันธ์ของพวกเขา ...
  • βs มีความสัมพันธ์บางส่วน R2 คือความสัมพันธ์หลายกำลังสอง ... ความสัมพันธ์คูณด้วยความสัมพันธ์บางส่วน ...
  • ถ้าเราปรับมุมฉากก่อนจากนั้น βจะเป็น Cov/Var... ผลลัพธ์นี้มีความหมายทางเรขาคณิตหรือไม่?

ดูเหมือนว่าไม่มีหัวข้อใดที่จะนำพาฉันไปได้ทุกที่ ทุกคนสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับวิธีการเข้าใจผลลัพธ์นี้


หลักฐานไม่น่าพอใจ

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

และ

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED


คุณจะต้องใช้ตัวแปรมาตรฐานมิฉะนั้นสูตรของคุณสำหรับ R2 ไม่รับประกันว่าจะอยู่ระหว่าง 0 และ 1. แม้ว่าข้อสมมติฐานนี้จะออกมาในหลักฐานของคุณ แต่จะช่วยให้ชัดเจนในตอนแรก ฉันงงกับสิ่งที่คุณกำลังทำอยู่จริงๆเช่นกัน: ของคุณR2เห็นได้ชัดว่าเป็นฟังก์ชั่นของแบบจำลองเพียงอย่างเดียว - ไม่มีอะไรเกี่ยวข้องกับข้อมูล - แต่คุณเริ่มพูดถึงว่าคุณมี "พอดี" แบบกับบางสิ่งบางอย่าง
whuber

Doesn't your top result only hold if X1 & X2 are perfectly uncorrelated?
gung - Reinstate Monica

@gung I don't think so - proof at bottom seems to say it works regardless. This result surprises me too, hence wanting a "clear understanding proof"
Korone

@whuber I'm not sure what you mean by "function of the model alone"? I simply mean the R2 for simple OLS with two predicter variables. I.e. this is the 2 variable version of R2=Cor(Y,X)2
Korone

I cannot tell whether your βi are the parameters or the estimates.
whuber

คำตอบ:


9

The hat matrix is idempotent.

(This is a linear-algebraic way of stating that OLS is an orthogonal projection of the response vector onto the space spanned by the variables.)


Recall that by definition

R2=ESSTSS

where

ESS=(Y^)Y^

is the sum of squares of the (centered) predicted values and

TSS=YY

is the sum of squares of the (centered) response values. Standardizing Y beforehand to unit variance also implies

TSS=YY=n.

Recall, too, that the estimated coefficients are given by

β^=(XX)XY,

whence

Y^=Xβ^=X(XX)XY=HY

where H is the "hat matrix" effecting the projection of Y onto its least squares fit Y^. It is symmetric (which is obvious from its very form) and idempotent. Here is a proof of the latter for those unfamiliar with this result. It's just shuffling parentheses around:

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Therefore

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

The crucial move in the middle used the idempotence of the hat matrix. The right hand side is your magical formula because 1nYX is the (row) vector of correlation coefficients between Y and the columns of X.


(+1) Very nice write-up. But why ^{-} instead of ^{-1} everywhere?
amoeba

1
@amoeba It's a generalized inverse, put there to handle the cases where XX may be singular.
whuber

4
@amoeba Penrose, in his original paper (A Generalized Inverse for Matrices, 1954) used the notation A. I like neither that nor the A+ notation because they are too easily confused with conjugates, transposes, or conjugate transposes, whereas the A notation is so suggestive of an inverse the casual reader can get away with thinking of it as A1 if they like. You're just too good a reader--but thanks for noticing.
whuber

1
Interesting and compelling motivation, but may I ask if this notation is something that is occasionally used elsewhere or is it your own invention?
amoeba

5
@amoeba: Yes, this notation appears elsewhere, including in the classical texts by Graybill on the linear model.
cardinal

5

The following three formulas are well known, they are found in many books on linear regression. It is not difficult to derive them.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

If you substitute the two betas into your equation R2=rYX1β1+rYX2β2, you will get the above formula for R-square.


Here is a geometric "insight". Below are two pictures showing regression of Y by X1 and X2. This kind of representation is known as variables-as-vectors in subject space (please read what it is about). The pictures are drawn after all the three variables were centered, and so (1) every vector's length = st. deviation of the respective variable, and (2) angle (its cosine) between every two vectors = correlation between the respective variables.

enter image description here

Y^ is the regression prediction (orthogonal projection of Y onto "plane X"); e is the error term; cosYY^=|Y^|/|Y|, multiple correlation coefficient.

The left picture depicts skew coordinates of Y^ on variables X1 and X2. We know that such coordinates relate the regression coefficients. Namely, the coordinates are: b1|X1|=b1σX1 and b2|X2|=b2σX2.

And the right picture shows corresponding perpendicular coordinates. We know that such coordinates relate the zero order correlation coefficients (these are cosines of orthogonal projections). If r1 is the correlation between Y and X1 and r1 is the correlation between Y^ and X1 then the coordinate is r1|Y|=r1σY=r1|Y^|=r1σY^. Likewise for the other coordinate, r2|Y|=r2σY=r2|Y^|=r2σY^.

So far it were general explanations of linear regression vector representation. Now we turn for the task to show how it may lead to R2=r1β1+r2β2.

First of all, recall that in their question @Corone put forward the condition that the expression is true when all the three variables are standardized, that is, not just centered but also scaled to variance 1. Then (i.e. implying |X1|=|X2|=|Y|=1 to be the "working parts" of the vectors) we have coordinates equal to: b1|X1|=β1; b2|X2|=β2; r1|Y|=r1; r2|Y|=r2; as well as R=|Y^|/|Y|=|Y^|. Redraw, under these conditions, just the "plane X" of the pictures above:

enter image description here

On the picture, we have a pair of perpendicular coordinates and a pair of skew coordinates, of the same vector Y^ of length R. There exist a general rule to obtain perpendicular coordinates from skew ones (or back): P=SC, where P is points X axes matrix of perpendicular ones; S is the same sized matrix of skew ones; and C are the axes X axes symmetric matrix of angles (cosines) between the nonorthogonal axes.

X1 and X2 are the axes in our case, with r12 being the cosine between them. So, r1=β1+β2r12 and r2=β1r12+β2.

Substitute these rs expressed via βs in the @Corone's statement R2=r1β1+r2β2, and you'll get that R2=β12+β22+2β1β2r12, - which is true, because it is exactly how a diagonal of a parallelogram (tinted on the picture) is expressed via its adjacent sides (quantity β1β2r12 being the scalar product).

This same thing is true for any number of predictors X. Unfortunately, it is impossible to draw the alike pictures with many predictors.


1
+1 nice to see it constructed this way as well, but this doesn't add as much insight compared to whuber's answer
Korone

2
@Corone, I added some "insight" which you might take.
ttnphns

1
+1 Really cool (after the update). I thought that invoking "general rule" of converting between coordinates is a bit of an overkill (and for me was only confusing); to see that e.g. r1=β1+β2r12 one only needs to remember the definition of cosine and look at one of the right triangles.
amoeba

Really cool edit, switched accepted.
Korone
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.