การถดถอยเชิงเส้น: * ทำไม * คุณสามารถแบ่งผลรวมของช่องสี่เหลี่ยมได้?


9

โพสต์นี้หมายถึงรูปแบบการถดถอย bivariate เชิงเส้น\ ฉันมักจะแบ่งพาร์ติชันของผลรวมของกำลังสอง (SSTO) เป็นผลรวมของกำลังสองสำหรับข้อผิดพลาด (SSE) และผลรวมของกำลังสองสำหรับโมเดล (SSR) โดยความเชื่อ แต่เมื่อฉันเริ่มคิดจริงๆฉันไม่เข้าใจทำไมมันถึงทำงาน ...Yi=β0+β1xi

ส่วนที่ผมไม่เข้าใจ

yi : ค่าที่สังเกตได้ของ y

y¯ : ค่าเฉลี่ยของyi s ที่สังเกตได้ทั้งหมด

y^i : ค่าติดตั้ง / ทำนายของ y สำหรับการสังเกตของ x

yiy^i : ส่วนที่เหลือ / ข้อผิดพลาด (ถ้ายกกำลังสองและบวกกันสำหรับการสังเกตทั้งหมดนี่คือ SSE)

y^iy¯ : ค่าติดตั้งโมเดลแตกต่างจากค่าเฉลี่ย (ถ้ายกกำลังสองและบวกสำหรับการสังเกตทั้งหมดนี่คือ SSR)

yiy¯ : ค่าที่สังเกตได้นั้นแตกต่างจากค่าเฉลี่ย (ถ้าถูก suared และบวกสำหรับการสังเกตทั้งหมดนี่คือ SSTO)

ผมสามารถเข้าใจว่าทำไมสำหรับการสังเกตเดียวโดยไม่ squaring อะไร(yiy¯)=(y^iy¯)+(yiy^i)_i) และฉันสามารถเข้าใจได้ว่าทำไมถ้าคุณต้องการเพิ่มสิ่งต่างๆลงไปในการสังเกตทั้งหมดคุณจะต้องยกกำลังสองพวกเขาหรือพวกมันจะรวมกันเป็น 0

ส่วนที่ฉันไม่เข้าใจคือสาเหตุ (เช่น SSTO = SSR + SSE) มันน่าจะเป็นว่าถ้าคุณมีสถานการณ์ที่แล้วไม่ 2 ทำไมไม่เป็นอย่างนั้น?(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2


5
คุณออกจากการสรุปในย่อหน้าสุดท้ายของคุณ SST = SSR + SSE เป็นผลรวมของแต่ความเท่าเทียมกันของคุณที่คุณเขียนทันทีก่อนที่มันจะไม่เป็นจริงโดยไม่ต้องมีการสรุปที่นั่น i
Glen_b -Reinstate Monica

1
ในย่อหน้าสุดท้ายของคุณคุณต้องการ (เช่น SSTO = SSR + SSE) ไม่ใช่ (เช่น SSTO = SSR + SSE) "eg" เป็นตัวย่อสำหรับวลีภาษาละติน " exempli gratia " หรือ "ตัวอย่าง" เป็นภาษาอังกฤษ "ie" เป็นตัวย่อของ " id est " และสามารถอ่านได้ในภาษาอังกฤษว่า "นั่นคือ"
แมทธิวกันน์

คำตอบ:


9

มันน่าจะเป็นว่าถ้าคุณมีสถานการณ์ที่แล้ว ไม่ 2 ทำไมไม่เป็นอย่างนั้น?A=B+CA2=B2+2BC+C2A2=B2+C2

แนวคิดความคิดคือเพราะและเป็น orthogonal (เช่นตั้งฉาก)BC=0BC


ในบริบทของการถดถอยเชิงเส้นที่นี่เหลือที่เป็นมุมฉากกับการคาดการณ์ demeaned{y} การพยากรณ์จากการถดถอยเชิงเส้นสร้างการสลายตัวแบบมุมฉากของในลักษณะที่คล้ายกันว่าคือการสลายตัวแบบมุมฉากϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

พีชคณิตเชิงเส้นรุ่น:

ปล่อย:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

การถดถอยเชิงเส้น (รวมค่าคงที่) จะสลายตัวเป็นผลรวมของเวกเตอร์สองตัว: การพยากรณ์และส่วนที่เหลือzz^ϵ

z=z^+ϵ

ลองแสดงว่าสินค้า dot (โดยทั่วไปแล้วสามารถเป็นผลิตภัณฑ์ภายใน ).,.X,Y E[XY]

Z,Z=Z^+ε,Z^+ε=Z^,Z^+2Z^,ε+ε,ε=Z^,Z^+ε,ε

เมื่อบรรทัดสุดท้ายนั้นตามมาจากข้อเท็จจริงที่ว่า (นั่นคือและเป็นมุมฉาก) คุณสามารถพิสูจน์ได้และเป็นมุมฉากขึ้นอยู่กับวิธีการธรรมดาอย่างน้อยสร้างสี่เหลี่ยมถดถอย{Z}}Z^,ε=0Z^ε=Z-Z^Z^εZ^

Z^คือการฉายภาพเชิงเส้นของไปยังพื้นที่ย่อยที่กำหนดโดยการกระจายเชิงเส้นของ regressors , , ฯลฯ .... ที่เหลือเป็น orthogonal ทั้งหมดนั้นจึงเป็นพื้นที่ว่าง (ซึ่งอยู่ในช่วงของ , , ฯลฯ ... ) คือ ตั้งฉากกับepsilon}Zx1x2εZ^x1x2ε


โปรดสังเกตว่าตามที่ฉันนิยามเป็นผลิตภัณฑ์ dot,เป็นอีกวิธีหนึ่งในการเขียน (เช่น SSTO = SSR + SSE).,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2


8

จุดทั้งหมดแสดงให้เห็นว่าเวกเตอร์บางตัวเป็นมุมฉากแล้วใช้ทฤษฎีบทพีทาโกรัส

ขอให้เราพิจารณาหลายตัวแปรเชิงเส้นถดถอย\ เรารู้ว่า OLS ประมาณการเป็น(X พิจารณาการประมาณY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (เมทริกซ์ H เรียกอีกอย่างว่า "หมวก" เมทริกซ์)

ที่เป็นเมทริกซ์ประมาณการมุมฉากของ Y บน(X) ตอนนี้เรามีHS(X)

YY^=YHY=(IH)Y

ที่เป็นเมทริกซ์ฉายลงบนส่วนประกอบมุมฉากของซึ่งเป็น(X) ดังนั้นเราจึงรู้ว่าและเป็นมุมฉาก(IH)S(X)S(X)YY^Y^

ตอนนี้ให้พิจารณารุ่นย่อยY=X0β0+ϵ

โดยที่และในทำนองเดียวกันเรามี OLS ประมาณการและประมาณการและกับการฉายเมทริกซ์บน(x_0) ในทำนองเดียวกันเรามีและเป็นแบบมุมฉาก และตอนนี้X=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

ที่อีกครั้งเป็นเมทริกซ์ฉายฉากในส่วนประกอบของซึ่งเป็น(x_0) ดังนั้นเราจึงมีความตั้งฉากของและ{} ดังนั้นในที่สุดเราก็มี(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

และในที่สุด||YY0^||2=||YY^||2+||Y^Y0^||2

สุดท้ายหมายถึงเป็นเพียงเมื่อพิจารณารูปแบบโมฆะEY¯Y0^Y=β0+e


ขอบคุณสำหรับคำตอบ! S () (เช่นเดียวกับใน S (X) ในโพสต์ของคุณคืออะไร)
bluemouse

S(X)เป็นพื้นที่ย่อยที่สร้างโดยคอลัมน์ของเมทริกซ์X
Łukaszผู้สำเร็จการศึกษา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.