ในการถดถอยเชิงเส้นอย่างง่ายสูตรการแปรปรวนของค่าตกค้างมาจากไหน?


21

ตามข้อความที่ฉันใช้สูตรสำหรับความแปรปรวนของส่วนที่เหลือจะได้รับจาก:ith

σ2(11n(xix¯)2Sxx)

ฉันพบนี้ยากที่จะเชื่อตั้งแต่ที่เหลือคือความแตกต่างระหว่างค่าสังเกตและค่าติดตั้ง; ถ้าใครจะคำนวณความแปรปรวนของความแตกต่างอย่างน้อยที่สุดฉันก็คาดหวังว่า "บวก" บางอย่างในการแสดงออกที่เกิดขึ้น ความช่วยเหลือใด ๆ ในการทำความเข้าใจแหล่งที่มาจะได้รับการชื่นชมithithith


เป็นไปได้หรือไม่ที่เครื่องหมาย " " ในข้อความกำลังแสดงผลผิดพลาด (หรืออ่านผิด) เป็นสัญญาณ " "? -+
whuber

ฉันเคยคิดแบบนี้ แต่มันเกิดขึ้นสองครั้งในข้อความ (2 บทที่แตกต่างกัน) ดังนั้นฉันคิดว่ามันไม่น่าจะเป็นไปได้ แน่นอนว่าการสืบทอดสูตรจะช่วยได้! :)
Eric

เชิงลบเป็นผลมาจากความสัมพันธ์เชิงบวกระหว่างการสังเกตและค่าติดตั้งซึ่งจะช่วยลดความแปรปรวนของความแตกต่าง
Glen_b -Reinstate Monica

@Glen ขอบคุณสำหรับการอธิบายว่าทำไมปรากฎว่าสูตรมีเหตุผลพร้อมกับเมทริกซ์ของคุณด้านล่าง
Eric

คำตอบ:


27

สัญชาตญาณเกี่ยวกับเครื่องหมาย "บวก" ที่เกี่ยวข้องกับความแปรปรวน (จากข้อเท็จจริงที่ว่าแม้เมื่อเราคำนวณความแปรปรวนของความแตกต่างของตัวแปรสุ่มอิสระเราเพิ่มความแปรปรวน) นั้นถูกต้อง แต่ไม่สมบูรณ์อย่างร้ายแรง: หากตัวแปรสุ่มที่เกี่ยวข้องไม่อิสระ จากนั้นก็มีส่วนร่วมกับความแปรปรวนร่วมและความแปรปรวนร่วมอาจเป็นลบ มีการแสดงออกที่เป็นอยู่เกือบจะเหมือนการแสดงออกในคำถามก็คิดว่ามัน "ควร" จะโดย OP (และผม) และมันก็เป็นความแปรปรวนของการทำนายผิดพลาดแสดงว่ามันที่y 0 = β 0 +e0=y0y^0 :y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

ความแตกต่างที่สำคัญระหว่างความแปรปรวนของข้อผิดพลาดการทำนายและความแปรปรวนของการประมาณค่าข้อผิดพลาด (เช่นของที่เหลือ) เป็นคำว่าข้อผิดพลาดของการสังเกตที่คาดการณ์ไม่ได้มีความสัมพันธ์กับประมาณการเนื่องจากค่าถูกไม่ได้นำมาใช้ในการสร้าง ตัวประมาณและคำนวณค่าประมาณเป็นค่าที่ไม่อยู่ในกลุ่มตัวอย่างy0

พีชคณิตสำหรับรายได้ทั้งสองในลักษณะเดียวกันถึงจุด (ใช้0แทนฉัน ) แต่แล้ว diverges โดยเฉพาะ:0i

ในเชิงเส้นอย่างง่ายถดถอย , Var ( U ฉัน ) = σ 2ความแปรปรวนของประมาณการβ = ( β 0 , β 1 ) 'ยังคงเป็นyi=β0+β1xi+uivar(ยูผม)=σ2β^=(β^0,β^1)'

var(β^)=σ2(X'X)-1

เรามี

XX=[nxixixi2]

และอื่น ๆ

(XX)1=[xi2xixin][nxi2(xi)2]1

เรามี

[nΣxผม2-(Σxผม)2]=[nΣxผม2-n2x¯2]=n[Σxผม2-nx¯2]=nΣ(xผม2-x¯2)nSxx

ดังนั้น

(X'X)-1=[(1/n)Σxผม2-x¯-x¯1](1/Sxx)

ซึ่งหมายความว่า

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

-th ที่เหลือถูกกำหนดให้เป็นi

u^i=yiy^i=(β0β^0)+(β1β^1)xi+uผม

ค่าสัมประสิทธิ์ที่เกิดขึ้นจริงจะถือว่าเป็นค่าคงที่ regressor ได้รับการแก้ไข (หรือเงื่อนไขในนั้น) และมีศูนย์ความแปรปรวนที่มีระยะเวลาข้อผิดพลาดแต่ประมาณมีความสัมพันธ์กับระยะผิดพลาดเพราะประมาณมีตัวแปรตามและตัวแปรตาม มีคำข้อผิดพลาด ดังนั้นเราจึงมี

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

แพ็คมันขึ้นมาเล็กน้อยเพื่อรับ

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

คำในวงเล็บใหญ่มีตรงโครงสร้างเดียวกันกับความแปรปรวนของข้อผิดพลาดการทำนายที่มีการเปลี่ยนแปลงเพียงอย่างเดียวว่าแทนที่จะเราจะมีx 0 (และความแปรปรวนจะเป็นที่ของอี0และไม่ได้ของยูฉัน ) คำแปรปรวนสุดท้ายเป็นศูนย์สำหรับข้อผิดพลาดการทำนายเพราะY 0และด้วยเหตุนี้ยู0จะไม่รวมอยู่ในตัวประมาณ แต่ไม่เป็นศูนย์สำหรับข้อผิดพลาดการประมาณค่าเพราะY ฉันและด้วยเหตุนี้ยูฉันเป็นส่วนหนึ่งของกลุ่มตัวอย่างและดังนั้นจึงเป็นที่รวมอยู่ใน ประมาณการ เรามีxix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

การเปลี่ยนตัวผู้เล่นที่ผ่านมาจากวิธีβ 0มีการคำนวณ อย่างต่อเนื่องβ^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

เราใส่สิ่งนี้ลงในนิพจน์สำหรับความแปรปรวนของส่วนที่เหลือเราได้

Var(u^i)=σ2(11n(xix¯)2Sxx)

ดังนั้นปิดข้อความที่ OP ใช้

(ฉันได้ข้ามพีชคณิตมาแล้วไม่น่าแปลกใจที่พีชคณิต OLS ถูกสอนน้อยลงทุกวันนี้ ... )

สัญชาตญาณบางอย่าง

ดังนั้นจึงปรากฏว่าสิ่งที่ทำงาน "กับ" เรา (ความแปรปรวนขนาดใหญ่) เมื่อทำนายการทำงาน "สำหรับเรา" (ความแปรปรวนต่ำกว่า) เมื่อประมาณ นี่เป็นจุดเริ่มต้นที่ดีสำหรับคนที่จะไตร่ตรองว่าทำไมความพอดีที่ยอดเยี่ยมอาจเป็นสัญญาณที่ไม่ดีสำหรับความสามารถในการทำนายของแบบจำลอง
ความจริงที่ว่าเรามีการประเมินมูลค่าที่คาดหวังของ regressor ที่ลดความแปรปรวนโดย n ทำไม? เพราะโดยการประมาณเรา "ปิดตาของเรา" กับความแปรปรวนข้อผิดพลาดบางอย่างที่มีอยู่ในตัวอย่างเนื่องจากเราประเมินค่าที่คาดหวังเป็นหลัก ยิ่งกว่านั้นยิ่งใหญ่1/nเบี่ยงเบนของการสังเกตของ regressor จาก regressor ของค่าเฉลี่ยของกลุ่มตัวอย่างนั้นที่มีขนาดเล็กความแปรปรวนของที่เหลือเกี่ยวข้องกับการสังเกตนี้จะเป็น ... ที่มากกว่าที่เบี่ยงเบนสังเกตที่น้อยกว่าที่เบี่ยงเบนของที่เหลือ ... มันเป็นความแปรปรวนของ regressorsที่เหมาะกับเราโดย "รับตำแหน่ง" ของความแปรปรวนที่ไม่รู้จักที่ไม่รู้จัก

แต่นั่นเป็นสิ่งที่ดีสำหรับการประมาณค่า สำหรับการคาดเดาสิ่งเดียวกันทำให้เรา: ตอนนี้โดยไม่คำนึงถึง แต่ไม่สมบูรณ์ความแปรปรวนใน (เนื่องจากเราต้องการที่จะทำนายมัน) ผู้ประมาณค่าที่ไม่สมบูรณ์ของเราที่ได้จากตัวอย่างแสดงจุดอ่อนของพวกเขา: เราประเมินตัวอย่าง หมายความว่าเราไม่ทราบค่าที่คาดหวังที่แท้จริง - ความแปรปรวนเพิ่มขึ้น เรามีx 0ที่อยู่ห่างไกลจากค่าเฉลี่ยของกลุ่มตัวอย่างตามที่คำนวณได้จากข้อสังเกตอื่น ๆ -too ไม่ดีแปรปรวนข้อผิดพลาดการคาดการณ์ของเราได้รับเพิ่มอีกเพราะคาดการณ์ปี 0y0x0 y^0จะมีแนวโน้มที่จะหลงทาง ... ในภาษาวิทยาศาสตร์มากกว่า "ตัวทำนายที่ดีที่สุดในแง่ของการลดความผิดพลาดในการทำนายที่ลดลงแสดงถึงการหดตัวไปสู่ค่าเฉลี่ยของตัวแปรภายใต้การทำนาย" เราไม่พยายามทำซ้ำความแปรปรวนของตัวแปรตาม - เราเพียงแค่พยายามอยู่ "ใกล้เคียงกับค่าเฉลี่ย"


ขอบคุณสำหรับคำตอบที่ชัดเจนมาก! ฉันดีใจที่ "ปรีชา" ของฉันถูกต้อง
เอริค

Alecos ฉันไม่คิดว่ามันถูกต้อง
Glen_b -Reinstate Monica

Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)

@Eric I apologize for misleading you earlier. I have tried to provide some intuition for both formulas.
Alecos Papadopoulos

+1 You can see why I did the multiple regression case for this... thanks for going to the extra effort of doing the simple-regression case.
Glen_b -Reinstate Monica

19

Sorry for the somewhat terse answer, perhaps overly-abstract and lacking a desirable amount of intuitive exposition, but I'll try to come back and add a few more details later. At least it's short.

Given H=X(XTX)1XT,

Var(yy^)=Var((IH)y)=(IH)Var(y)(IH)T=σ2(IH)2=σ2(IH)

Hence

Var(yiy^i)=σ2(1hii)

In the case of simple linear regression ... this gives the answer in your question.

This answer also makes sense: since y^i is positively correlated with yi, the variance of the difference should be smaller than the sum of the variances.

--

Edit: Explanation of why (IH) is idempotent.

(i) H is idempotent:

H2=X(XTX)1XTX(XTX)1XT =X [(XTX)1XTX] (XTX)1XT=X(XTX)1XT=H

(ii) (IH)2=I2IHHI+H2=I2H+H=IH


1
This is a very nice derivation for its simplicity, although one step that is not clear to me is why (IH)2=(IH). Maybe when you expand on your answer a little, as you're planning to do anyway, you could say a little something about that?
Jake Westfall

@Jake เพิ่มสองบรรทัดในตอนท้าย
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.