คำอธิบายที่ใช้งานง่ายของคำในความแปรปรวนของตัวประมาณกำลังสองน้อยที่สุด


18

ถ้าอยู่ในอันดับเต็มค่าผกผันของมีอยู่และเราจะได้ค่าประมาณกำลังสองน้อยที่สุด: และXXXTXXTXˆβ=(XTX)1XY

β^=(XTX)1XY
Var(ˆβ)=σ2(XTX)1
Var(β^)=σ2(XTX)1

เราจะอธิบายอย่างสังหรณ์ใจได้อย่างไรในสูตรผลต่าง เทคนิคของการได้มานั้นชัดเจนสำหรับฉัน(XTX)1(XTX)1


3
คุณอาจต้องการเพิ่มโน้ตเพื่อชี้ให้เห็นว่าสูตรที่คุณระบุไว้สำหรับเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของ - สมมติว่านั้นประมาณโดย OLS - ถูกต้องเฉพาะเมื่อ เงื่อนไขของทฤษฎีบทเกาส์ - มาร์คอฟมีความพึงพอใจและโดยเฉพาะถ้าความแปรปรวน - ความแปรปรวนร่วมของเมทริกซ์ข้อผิดพลาดถูกกำหนดโดยโดยที่คือเมทริกซ์เอกลักษณ์และคือจำนวนของ แถวของ (และ ) สูตรที่คุณระบุไม่ถูกต้องสำหรับกรณีทั่วไปที่มีข้อผิดพลาดที่ไม่เป็นทรงกลมมากขึ้น ˆββ^ˆββ^σ2Inσ2InInInn×nn×nnnXXYY
Mico

คำตอบ:


13

พิจารณาการถดถอยอย่างง่าย ๆ โดยไม่มีค่าคงที่และที่ regressor เดียวมีศูนย์กลางอยู่ที่ค่าเฉลี่ยตัวอย่าง จากนั้น คือ ( ) ความแปรปรวนตัวอย่างของมันและ recirpocal ดังนั้นยิ่งค่าความแปรปรวน = ความแปรปรวนใน regressor ยิ่งสูงความแปรปรวนของตัวประมาณค่าสัมประสิทธิ์ก็จะยิ่งลดลงความแปรปรวนที่เรามีในตัวแปรอธิบายก็ยิ่งมากขึ้นเท่านั้น XXXXnn(XX)1(XX)1

ทำไม? เนื่องจาก regressor มีความหลากหลายมากขึ้นข้อมูลก็จะมีมากขึ้น เมื่อ regressors มีจำนวนมากสิ่งนี้จะทำให้ค่าผกผันแปรปรวนร่วมกับเมทริกซ์ความแปรปรวนร่วมของพวกมันซึ่งคำนึงถึงความแปรปรวนร่วมของ regressors ด้วย ในกรณีที่สุดขีดที่เป็นแนวทแยงมุมดังนั้นความแม่นยำสำหรับค่าสัมประสิทธิ์โดยประมาณขึ้นอยู่กับความแปรปรวน / ความแปรปรวนของ regressor ที่เกี่ยวข้องเท่านั้น (ให้ค่าความแปรปรวนของคำผิดพลาด)X XXX


คุณสามารถเชื่อมโยงข้อโต้แย้งนี้กับความจริงที่ว่าค่าผกผันของเมทริกซ์ความแปรปรวนร่วม - แปรปรวนทำให้เกิดความสัมพันธ์บางส่วนหรือไม่?
ไฮเซนเบิร์ก

5

วิธีง่ายๆในการดูเป็นเมทริกซ์ (หลายตัวแปร) อะนาล็อกของซึ่งเป็นความแปรปรวนของสัมประสิทธิ์ความชันในการถดถอย OLS แบบง่าย เราสามารถได้สำหรับความแปรปรวนนั้นโดยการตัดการสกัดกั้นในแบบจำลองเช่นโดยการถดถอยผ่านจุดกำเนิดσ 2 ( X T X ) - 1 σ 2σ2(XTX)1n i = 1 ( X i - ˉ X ) 2 σ2σ2ni=1(XiX¯)2n i = 1 X 2 iσ2ni=1X2i

จากหนึ่งในสูตรเหล่านี้อาจเห็นได้ว่าความแปรปรวนของตัวแปรทำนายใหญ่กว่าจะนำไปสู่การประมาณค่าสัมประสิทธิ์ที่แม่นยำยิ่งขึ้น นี่คือความคิดที่มักใช้ในการออกแบบการทดลองโดยการเลือกค่าสำหรับการพยากรณ์ (ไม่ใช่ - สุ่ม) ใครจะทำให้ปัจจัยของมีขนาดใหญ่ที่สุดเท่าที่จะทำได้ปัจจัยที่เป็นตัววัดความแปรปรวน( X T X )(XTX)


2

การแปลงเชิงเส้นของตัวแปรสุ่มแบบเกาส์นั้นช่วยได้หรือไม่? ใช้กฎว่าถ้าแล้วA)x N ( μ , Σ ) A x + b N ( A μ + b , A T Σ A )xN(μ,Σ) Ax+b N(Aμ+b,ATΣA)

สมมติว่าเป็นรุ่นพื้นฐานและ2)Y = X β + ϵ ϵ N ( 0 , σ 2 )Y=Xβ+ϵϵN(0,σ2)

Y N ( X β , σ 2 )X T Y N ( X T X β , X σ 2 X T )( X T X ) - 1 X T Y N [ β , ( X T X ) - 1 σ 2 ]

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

ดังนั้นเป็นเพียงการปรับเมทริกซ์ที่ซับซ้อนที่แปลงกระจายของY( X T X ) - 1 X T(XTX)1XT YY

หวังว่าจะเป็นประโยชน์


ไม่มีสิ่งใดในที่มาของตัวประมาณ OLS และความแปรปรวนของมันต้องเป็นไปตามข้อกำหนดของข้อผิดพลาด สิ่งที่ต้องเป็นและI_n (แน่นอนปกติจะต้องแสดง OLS ที่ประสบความสำเร็จใน Cramer-ราวผูกพันลดลง แต่นั่นไม่ใช่สิ่งที่โพสต์ของ OP เป็นเรื่องเกี่ยวกับมันคืออะไร?)E ( ε ) = 0 E ( ε ε T ) = σ 2 ฉันnE(ε)=0E(εεT)=σ2In
เอ็มไอ

2

ผมจะใช้วิธีการที่แตกต่างกันต่อการพัฒนาสัญชาตญาณที่รองรับสูตร1} เมื่อพัฒนาสัญชาตญาณสำหรับตัวแบบการถดถอยพหุคูณมันจะเป็นประโยชน์ในการพิจารณาตัวแบบการถดถอยเชิงเส้นแบบไบวาเรียคือ ,มักถูกเรียกว่าการสนับสนุนที่กำหนดขึ้นเพื่อและเรียกว่าการสุ่มสุ่ม แสดงในรูปของการเบี่ยงเบนจากค่าเฉลี่ยตัวอย่างโมเดลนี้อาจถูกเขียนเป็นvarβ =σ2(X'X)-1ปีฉัน=α+βxฉัน+εฉัน,Varβ^=σ2(XX)1ฉัน= 1 , ... , n α + β x ฉันY ฉันε ฉัน ( ˉ x , ˉ Y ) ( Y ฉัน - ˉ Y ) = β ( x ฉัน - ˉ x ) + ( ε ฉัน - ˉ ε ) ,

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)ฉัน= 1 , ... , n
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

เพื่อช่วยในการพัฒนาสัญชาตญาณเราจะสมมติว่าสมมติฐาน Gauss-Markov ที่ง่ายที่สุดพอใจ: nonstochastic,สำหรับทั้งหมดและสำหรับทุก n เมื่อคุณทราบดีแล้วเงื่อนไขเหล่านี้รับประกันว่าที่คือความแปรปรวนของตัวอย่างxในคำพูดสูตรนี้มีการอ้างสิทธิ์สามข้อ: "ความแปรปรวนของแปรผกผันกับขนาดตัวอย่างมันเป็นสัดส่วนโดยตรงกับความแปรปรวนของx i n i = 1 ( x i - ˉ x ) 2 > 0 n ε iiid ( 0 , σ 2 ) i = 1 , , n Varxini=1(xix¯)2>0nεiiid(0,σ2)i=1,,nβ =1n σ2(Varx ) - 1 , Var

Varβ^=1nσ2(Varx)1,
x x β n εVarxxβ^nεและมันแปรผกผันกับความแปรปรวนของ "xx

ทำไมต้องเป็นสองเท่าของขนาดตัวอย่างceteris paribusสาเหตุความแปรปรวนของจะถูกตัดในช่วงครึ่งปี? ผลลัพธ์นี้เชื่อมโยงอย่างใกล้ชิดกับข้อสันนิษฐานของ iid ที่นำไปใช้กับ : เนื่องจากข้อผิดพลาดของแต่ละบุคคลถูกสันนิษฐานว่าเป็น iid การสังเกตแต่ละครั้งจึงควรได้รับการปฏิบัติเช่นเดียวกับข้อมูล และการเพิ่มจำนวนการสังเกตเป็นสองเท่าจะเพิ่มจำนวนข้อมูลเกี่ยวกับพารามิเตอร์ที่อธิบายความสัมพันธ์ (เชิงเส้นสมมติ) ระหว่างและบีตา εβ^εx Y σ 2 βxy. การมีข้อมูลมากเป็นสองเท่าจะช่วยลดความไม่แน่นอนเกี่ยวกับพารามิเตอร์ลงครึ่งหนึ่ง ในทำนองเดียวกันมันควรจะตรงไปตรงมาเพื่อพัฒนาสัญชาตญาณของคน ๆ หนึ่งว่าทำไมการเสแสร้งยังเพิ่มความแปรปรวนของสองเท่าσ2β^

เปิด Let 's แล้วคำถามหลักของคุณซึ่งเป็นเรื่องเกี่ยวกับการพัฒนาสัญชาตญาณสำหรับการเรียกร้องที่แปรปรวนของเป็นสัดส่วนผกผันการแปรปรวนของxในการทำให้เป็นระเบียบความคิดนั้นให้เราพิจารณาแบบจำลองการถดถอยเชิงเส้นแบบแยกสองส่วนที่เรียกว่าแบบจำลองและแบบจำลองนับจากนี้เป็นต้นไป เราจะคิดว่าทั้งสองรุ่นตอบสนองสมมติฐานของรูปแบบที่ง่ายของทฤษฎีบท Gauss-มาร์คอฟและว่ารูปแบบร่วมค่าเดียวกันแน่นอนของ , ,และ 2 ภายใต้สมมติฐานเหล่านี้มันง่ายที่จะแสดงให้เห็นว่าβ x(1)(2)อัลฟ่าβnσ2Eβ^x(1)(2)αβnσ2β( 1 ) =Eβ( 2 ) =บีตา ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x VarEβ^(1)=Eβ^(2)=β ; ในคำพูดตัวประมาณค่าทั้งสองไม่เอนเอียง ที่สำคัญเราจะสมมติว่าในขณะที่ ,{(2)} โดยไม่สูญเสียของทั่วไปให้เราคิดว่า{(2)} ตัวประมาณใดที่จะมีความแปรปรวนน้อยลง ใส่ต่างกันหรือใกล้กว่าโดยเฉลี่ยเป็นหรือไม่ จากการสนทนาก่อนหน้านี้เรามีx¯(1)=x¯(2)=x¯x ( 1 )Varx ( 2 ) VarVarx(1)Varx(2)x ( 1 ) > Varx ( 2 ) บีตา บีตาVarx(1)>Varx(2)β^(1)β^(1)ˆβ(2)β^(2)ββVarˆβ(k)=1nσ2/Varx(k))Varβ^(k)=1nσ2/Varx(k))สำหรับkเนื่องจากโดยการสันนิษฐานมันเป็นไปตามที่{(2)} ถ้าเช่นนั้นแล้วสัญชาตญาณเบื้องหลังผลลัพธ์นี้คืออะไร?k=1,2k=1,2Varx(1)>Varx(2)Varx(1)>Varx(2)Varˆβ(1)<Varˆβ(2)Varβ^(1)<Varβ^(2)

เนื่องจากโดยการสันนิษฐาน , โดยเฉลี่ยแต่ละจะอยู่ห่างจากกว่าเป็นกรณีโดยเฉลี่ยสำหรับ{(2)} ขอให้เราแสดงให้เห็นถึงความแตกต่างแน่นอนคาดว่าเฉลี่ยระหว่างและโดยd_xสมมติฐานที่หมายความว่า{(2)} รูปแบบการถดถอยเชิงเส้นแบบซึ่งแสดงเป็นค่าเบี่ยงเบนจากค่าเฉลี่ยระบุว่าสำหรับแบบจำลองและสำหรับแบบจำลองVarx(1)>Varx(2)Varx(1)>Varx(2)x(1)ix(1)iˉxx¯x(2)ix(2)ixixiˉxx¯dxdxVarx(1)>Varx(2)Varx(1)>Varx(2)d(1)x>d(2)xd(1)x>d(2)xdy=βd(1)xdy=βd(1)x(1)(1)dy=βd(2)xdy=βd(2)x(2)(2)(2)หาก , ที่นี้หมายถึงว่าองค์ประกอบที่กำหนดรูปแบบ ,มีอิทธิพลมากในกว่าองค์ประกอบที่กำหนดรูปแบบ ,(2)} จำได้ว่าทั้งสองรุ่นจะถือว่าตอบสนองความสมมติฐาน Gauss-มาร์คอฟที่แปรปรวนผิดพลาดจะเหมือนกันทั้งในรูปแบบและที่\เนื่องจาก Modelให้ข้อมูลเพิ่มเติมเกี่ยวกับการมีส่วนร่วมขององค์ประกอบที่กำหนดค่าได้ของมากกว่ารุ่นจึงเป็นไปตามความแม่นยำβ0β0(1)(1)βd(1)xβd(1)xdydy(2)(2)βd(2)xβd(2)xβ(1)=β(2)=ββ(1)=β(2)=β(1)(1)yy(2)(2)ซึ่งผลงานที่กำหนดสามารถประมาณเป็นมากขึ้นสำหรับรุ่นกว่าเป็นกรณีสำหรับรุ่น(2)สนทนาของความแม่นยำมากขึ้นเป็นความแปรปรวนล่างของประมาณการจุด\(1)(1)(2)(2)ββ

มันเป็นเรื่องตรงไปตรงมาพอสมควรที่จะพูดถึงสัญชาตญาณที่ได้จากการศึกษารูปแบบการถดถอยอย่างง่ายไปสู่รูปแบบการถดถอยเชิงเส้นหลายแบบทั่วไป ภาวะแทรกซ้อนที่สำคัญคือแทนที่จะเปรียบเทียบความแปรปรวนแบบสเกลาร์จึงจำเป็นต้องเปรียบเทียบ "ขนาด" ของเมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วม การมีความรู้ในการทำงานที่ดีของดีเทอร์มิแนนต์, ร่องรอยและค่าลักษณะเฉพาะของเมทริกซ์สมมาตรจริงนั้นมีประโยชน์มากในตอนนี้ :-)


1

สมมติว่าเรามีการสังเกต (หรือขนาดตัวอย่าง) และพารามิเตอร์nnpp

เมทริกซ์ความแปรปรวนร่วมของพารามิเตอร์โดยประมาณฯลฯ เป็นตัวแทนของความถูกต้องของพารามิเตอร์โดยประมาณVar(ˆβ)Var(β^)ˆβ1,ˆβ2β^1,β^2

ถ้าในโลกที่เหมาะข้อมูลสามารถอธิบายได้อย่างสมบูรณ์แบบแล้วเสียงจะเป็น0 ตอนนี้รายการในแนวทแยงของสอดคล้องกับเป็นต้น สูตรที่ได้จากการแปรปรวนเห็นด้วยกับสัญชาตญาณว่าถ้าเสียงต่ำกว่าการประมาณจะแม่นยำยิ่งขึ้นσ2=0σ2=0Var(ˆβ)Var(β^)Var(^β1),Var(^β2)Var(β1^),Var(β2^)

นอกจากนี้เมื่อจำนวนการวัดเพิ่มขึ้นความแปรปรวนของพารามิเตอร์โดยประมาณจะลดลง ดังนั้นโดยรวมค่าสัมบูรณ์ของรายการของจะสูงกว่าเนื่องจากจำนวนคอลัมน์ของคือและจำนวนแถวของคือและแต่ละรายการของเป็นผลรวมของคู่ผลิตภัณฑ์ ค่าสัมบูรณ์ของรายการของค่าผกผันจะลดลงXTXXTXXTXTnnXXnnXTXXTXnn(XTX)1(XTX)1

ดังนั้นแม้ว่าจะมีเป็นจำนวนมากของเสียงเรายังคงประมาณการเข้าถึงที่ดี ของพารามิเตอร์ถ้าเราเพิ่มขนาดของกลุ่มตัวอย่างn^βiβi^nn

ฉันหวังว่านี่จะช่วยได้.

การอ้างอิง: ส่วน 7.3 ในสี่เหลี่ยมจัตุรัสน้อยที่สุด: Cosentino, Carlo และ Declan Bates การควบคุมความคิดเห็นในชีววิทยาของระบบ Crc Press, 2011


1

สิ่งนี้สร้างขึ้นจากคำตอบของ @Alecos Papadopuolos

จำได้ว่าผลลัพธ์ของการถดถอยกำลังสองน้อยที่สุดไม่ได้ขึ้นอยู่กับหน่วยการวัดตัวแปรของคุณ สมมติว่าตัวแปร X ของคุณเป็นการวัดความยาวที่กำหนดเป็นนิ้ว จากนั้นการ rescaling X โดยการคูณด้วย 2.54 เพื่อเปลี่ยนหน่วยเป็นเซนติเมตร หากคุณดัดแปลงโมเดลใหม่การประมาณการการถดถอยใหม่จะเป็นการประมาณแบบเก่าหารด้วย 2.54

เมทริกซ์คือความแปรปรวนของ X และด้วยเหตุนี้สะท้อนให้เห็นถึงระดับของการวัดเอ็กซ์ถ้าคุณเปลี่ยนขนาดคุณจะต้องสะท้อนถึงนี้ในการประมาณการของคุณและนี้จะทำโดยการคูณโดยผกผันของ'XXXβXX

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.