เหตุใดเราใช้เหลือเพื่อทดสอบสมมติฐานเกี่ยวกับข้อผิดพลาดในการถดถอย


10

สมมติว่าเรามีรูปแบบ Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi.

การถดถอยมีข้อสมมติฐานหลายประการเช่นข้อผิดพลาด ϵiควรกระจายตามปกติด้วยค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ ฉันได้รับการสอนให้ตรวจสอบสมมติฐานเหล่านี้โดยใช้พล็อต QQ ปกติเพื่อทดสอบความเป็นไปได้ของส่วนที่เหลือei=YiY^i และส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งเพื่อตรวจสอบว่าส่วนที่เหลือแตกต่างกันไปรอบ ๆ ศูนย์ด้วยความแปรปรวนคงที่

อย่างไรก็ตามการทดสอบเหล่านี้ทั้งหมดเกี่ยวกับส่วนที่เหลือไม่ใช่ข้อผิดพลาด

จากสิ่งที่ฉันเข้าใจข้อผิดพลาดหมายถึงการเบี่ยงเบนของการสังเกตแต่ละครั้งจากค่าเฉลี่ยที่แท้จริงของพวกเขา ดังนั้นเราสามารถเขียนϵi=YiE[Yi]. เราไม่สามารถสังเกตเห็นข้อผิดพลาดเหล่านี้ได้ * * * *

คำถามของฉันคือสิ่งนี้: สิ่งที่เหลืออยู่ของงานทำอย่างไรในการเลียนแบบข้อผิดพลาด?

หากสมมติฐานปรากฏว่าพอใจในส่วนที่เหลือหมายความว่าพวกเขามีความพึงพอใจต่อข้อผิดพลาดด้วยหรือไม่? มีวิธีอื่น ๆ (ดีกว่า) ในการทดสอบสมมติฐานเช่นการปรับโมเดลให้เหมาะกับชุดข้อมูลการทดสอบและรับส่วนที่เหลือจากที่นั่นหรือไม่?


* นอกจากนี้สิ่งนี้ไม่ต้องการให้มีการระบุรุ่นอย่างถูกต้องหรือไม่? นั่นคือการตอบสนองจะมีความสัมพันธ์กับผู้ทำนายX1,X2, ฯลฯ ตามวิธีที่ระบุโดยรุ่น

หากเราไม่มีผู้ทำนายบางตัว (พูด Xk+1 to Xp) จากนั้นความคาดหวัง E[Yi]=β0+β1Xi1+β2Xi2++βkXik จะไม่ได้เป็นค่าเฉลี่ยที่แท้จริงและการวิเคราะห์เพิ่มเติมเกี่ยวกับแบบจำลองที่ไม่ถูกต้องดูเหมือนไร้ประโยชน์

เราจะตรวจสอบว่าแบบจำลองนั้นถูกต้องได้อย่างไร

คำตอบ:


9

ส่วนที่เหลือเป็นค่าประมาณของข้อผิดพลาด

คำตอบสั้น ๆ สำหรับคำถามนี้ค่อนข้างง่าย: สมมติฐานในตัวแบบการถดถอยคือสมมติฐานเกี่ยวกับพฤติกรรมของข้อผิดพลาดและส่วนที่เหลือเป็นค่าประมาณของข้อผิดพลาด อีกทั้ง , การตรวจสอบพฤติกรรมของสารตกค้างที่สังเกตได้นั้นบอกเราว่าสมมติฐานเกี่ยวกับข้อผิดพลาดนั้นมีเหตุผลหรือไม่

เพื่อทำความเข้าใจกับเหตุผลทั่วไปของรายละเอียดเพิ่มเติมนี้จะช่วยในการตรวจสอบรายละเอียดพฤติกรรมของส่วนที่เหลือในรูปแบบการถดถอยมาตรฐาน ภายใต้การถดถอยเชิงเส้นแบบหลายค่ามาตรฐานพร้อมเงื่อนไขข้อผิดพลาด homoskedastic อิสระการกระจายของเวกเตอร์ที่เหลือนั้นเป็นที่รู้จักซึ่งช่วยให้คุณสามารถทดสอบสมมติฐานการกระจายพื้นฐานในรูปแบบการถดถอย แนวคิดพื้นฐานคือคุณหาการแจกแจงของเวกเตอร์ที่เหลือภายใต้สมมติฐานการถดถอยแล้วตรวจสอบว่าค่าที่เหลือน่าจะตรงกับการกระจายทางทฤษฎีนี้หรือไม่ การเบี่ยงเบนจากการแจกแจงส่วนที่เหลือตามทฤษฎีแสดงให้เห็นว่าการแจกแจงแบบสันนิษฐานของข้อผิดพลาดนั้นผิดในบางแง่

หากคุณใช้การกระจายข้อผิดพลาดพื้นฐาน ϵiIID N(0,σ2) สำหรับรูปแบบการถดถอยมาตรฐานและคุณใช้การประมาณค่า OLS สำหรับสัมประสิทธิ์จากนั้นการกระจายตัวของเศษซากสามารถแสดงให้เห็นว่าเป็นการกระจายตัวแบบหลายตัวแปรแบบปกติ:

r=(Ih)ϵN(0,σ2(Ih)),

โดยที่เป็นหมวกเมทริกซ์สำหรับการถดถอย การตกค้างเวกเตอร์เลียนแบบเวกเตอร์ข้อผิดพลาด แต่เมทริกซ์ความแปรปรวนมีระยะคูณเพิ่มเติม{H} เพื่อทดสอบสมมติฐานการถดถอยเราใช้เศษเหลือของนักเรียนที่มีการแจกแจง Th=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(สูตรนี้มีไว้สำหรับเหลือ studentised ภายนอกที่แปรปรวนประมาณการไม่รวมตัวแปรภายใต้การพิจารณา. ค่าเป็นค่างัดซึ่งเป็นค่าเส้นทแยงมุมในเมทริกซ์หมวก . the เหลือ studentised ไม่ได้ เป็นอิสระ แต่ถ้ามีขนาดใหญ่พวกมันก็อยู่ใกล้กับอิสระนั่นหมายความว่าการกระจายขอบเป็นที่รู้จักง่าย ๆ แต่การกระจายข้อต่อมีความซับซ้อน) ตอนนี้ถ้า จำกัดมีอยู่จากนั้นจะสามารถแสดงให้เห็นว่าตัวประมาณค่าสัมประสิทธิ์เป็นตัวประมาณความสอดคล้องของสัมประสิทธิ์การถดถอยที่แท้จริงและส่วนที่เหลือเป็นตัวประมาณที่สอดคล้องกันของ ข้อผิดพลาดที่แท้จริงli=hi,inlimn(xTx)/n=Δ

โดยพื้นฐานแล้วนี่หมายความว่าคุณทดสอบสมมติฐานการกระจายต้นแบบสำหรับเงื่อนไขข้อผิดพลาดโดยการเปรียบเทียบค่าส่วนที่เหลือของนักเรียนกับการแจกแจงแบบ T คุณสมบัติพื้นฐานแต่ละข้อของการแจกแจงข้อผิดพลาด (เส้นตรง, homoskedasticity, ข้อผิดพลาด uncorrelated, ภาวะปกติ) สามารถทดสอบได้โดยใช้คุณสมบัติคล้ายคลึงของการกระจายตัวของเศษซากนักเรียน หากระบุโมเดลอย่างถูกต้องดังนั้นสำหรับมีขนาดใหญ่ควรอยู่ใกล้กับเงื่อนไขข้อผิดพลาดจริงและมีรูปแบบการกระจายที่คล้ายกันn

การละเว้นตัวแปรอธิบายจากตัวแบบการถดถอยนำไปสู่การละเว้นอคติของตัวแปรในตัวประมาณค่าสัมประสิทธิ์และสิ่งนี้มีผลต่อการกระจายตัวที่เหลือ ทั้งค่าเฉลี่ยและความแปรปรวนของเวกเตอร์ที่เหลือได้รับผลกระทบจากตัวแปรที่ละเว้น ถ้าคำที่ถูกละเว้นในการถดถอยคือดังนั้นเวกเตอร์ที่เหลือจะกลายเป็นepsilon}) ถ้าข้อมูลเวกเตอร์ในเมทริกซ์ที่ถูกตัดเป็นเวกเตอร์ปกติของ IID และเป็นอิสระจากข้อกำหนดข้อผิดพลาดแล้วZδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) เพื่อให้การกระจายตัวที่เหลือกลายเป็น:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

หากมีคำศัพท์ดักจับอยู่แล้วในแบบจำลอง (เช่นถ้าหน่วยเวกเตอร์อยู่ในเมทริกซ์การออกแบบ) ดังนั้น1(Ih)1=0ซึ่งหมายความว่ารูปแบบการกระจายมาตรฐานของส่วนที่เหลือจะถูกเก็บรักษาไว้ หากไม่มีคำดักจับในโมเดลตัวแปรที่ละเว้นอาจให้ค่าเฉลี่ยที่ไม่ใช่ศูนย์สำหรับค่าส่วนที่เหลือ หรือถ้าตัวแปรที่ละเว้นนั้นไม่ใช่ IID ปกติก็สามารถนำไปสู่การเบี่ยงเบนอื่น ๆ จากการแจกแจงส่วนที่เหลือมาตรฐาน ในกรณีหลังนี้การทดสอบที่เหลือไม่น่าจะตรวจจับสิ่งใดที่เป็นผลมาจากการมีตัวแปรที่ถูกตัดออก มันเป็นไปไม่ได้ที่จะตัดสินว่าการเบี่ยงเบนจากการแจกแจงเชิงทฤษฎีเกิดขึ้นเนื่องจากตัวแปรที่ละเว้นหรือเนื่องจากความสัมพันธ์ที่ไม่ดีกับตัวแปรที่รวมอยู่ (และเนื้อหาเหล่านี้เป็นสิ่งเดียวกันในทุกกรณี)


1
ขอบคุณสำหรับคำตอบที่ครอบคลุม ฉันสามารถถามว่าคุณได้รับไหม? สำหรับฉันดูเหมือนว่าr=(Ih)ϵr=YY^=(Ih)Y
mai

1
เนื่องจากคุณมีดังนั้นepsilon} hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
เบ็น - คืนสถานะโมนิก้า

-4

โดยปกติแล้วคำที่เหลือและข้อผิดพลาดหมายถึงสิ่งเดียวกัน หากแบบจำลองของคุณไม่มีตัวทำนาย E (Y) ย่อมเป็นค่าเฉลี่ยของ Y ด้วยตัวทำนาย (เช่นเดียวกับในแบบจำลองของคุณ) E (Y) คือค่าของ Y ที่คาดการณ์จากแต่ละ X ดังนั้นค่าที่เหลือจะแตกต่างกัน และทำนายว่าวาย


3
"โดยปกติคำศัพท์ที่เหลือและข้อผิดพลาดหมายถึงสิ่งเดียวกัน" ฉันไม่คิดว่านี่เป็นเรื่องจริง - เท่าที่ฉันเข้าใจส่วนที่เหลือจะวัดความแตกต่างระหว่างค่าที่สังเกตและค่าที่คาดการณ์ไว้ในขณะที่ข้อผิดพลาดจะวัดความแตกต่างระหว่างค่าที่สังเกตและค่าเฉลี่ยจริง
mai

1
ข้อผิดพลาดในการพูดอย่างเคร่งครัดและส่วนที่เหลือไม่ได้เป็นคำพ้องความหมาย อดีตคือตัวแปรสุ่มส่วนหลังคือการรับรู้
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.