ส่วนที่เหลือเป็นค่าประมาณของข้อผิดพลาด
คำตอบสั้น ๆ สำหรับคำถามนี้ค่อนข้างง่าย: สมมติฐานในตัวแบบการถดถอยคือสมมติฐานเกี่ยวกับพฤติกรรมของข้อผิดพลาดและส่วนที่เหลือเป็นค่าประมาณของข้อผิดพลาด อีกทั้ง , การตรวจสอบพฤติกรรมของสารตกค้างที่สังเกตได้นั้นบอกเราว่าสมมติฐานเกี่ยวกับข้อผิดพลาดนั้นมีเหตุผลหรือไม่
เพื่อทำความเข้าใจกับเหตุผลทั่วไปของรายละเอียดเพิ่มเติมนี้จะช่วยในการตรวจสอบรายละเอียดพฤติกรรมของส่วนที่เหลือในรูปแบบการถดถอยมาตรฐาน ภายใต้การถดถอยเชิงเส้นแบบหลายค่ามาตรฐานพร้อมเงื่อนไขข้อผิดพลาด homoskedastic อิสระการกระจายของเวกเตอร์ที่เหลือนั้นเป็นที่รู้จักซึ่งช่วยให้คุณสามารถทดสอบสมมติฐานการกระจายพื้นฐานในรูปแบบการถดถอย แนวคิดพื้นฐานคือคุณหาการแจกแจงของเวกเตอร์ที่เหลือภายใต้สมมติฐานการถดถอยแล้วตรวจสอบว่าค่าที่เหลือน่าจะตรงกับการกระจายทางทฤษฎีนี้หรือไม่ การเบี่ยงเบนจากการแจกแจงส่วนที่เหลือตามทฤษฎีแสดงให้เห็นว่าการแจกแจงแบบสันนิษฐานของข้อผิดพลาดนั้นผิดในบางแง่
หากคุณใช้การกระจายข้อผิดพลาดพื้นฐาน ϵi∼IID N(0,σ2) สำหรับรูปแบบการถดถอยมาตรฐานและคุณใช้การประมาณค่า OLS สำหรับสัมประสิทธิ์จากนั้นการกระจายตัวของเศษซากสามารถแสดงให้เห็นว่าเป็นการกระจายตัวแบบหลายตัวแปรแบบปกติ:
r=(I−h)ϵ∼N(0,σ2(I−h)),
โดยที่เป็นหมวกเมทริกซ์สำหรับการถดถอย การตกค้างเวกเตอร์เลียนแบบเวกเตอร์ข้อผิดพลาด แต่เมทริกซ์ความแปรปรวนมีระยะคูณเพิ่มเติม{H} เพื่อทดสอบสมมติฐานการถดถอยเราใช้เศษเหลือของนักเรียนที่มีการแจกแจง Th=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(สูตรนี้มีไว้สำหรับเหลือ studentised ภายนอกที่แปรปรวนประมาณการไม่รวมตัวแปรภายใต้การพิจารณา. ค่าเป็นค่างัดซึ่งเป็นค่าเส้นทแยงมุมในเมทริกซ์หมวก . the เหลือ studentised ไม่ได้ เป็นอิสระ แต่ถ้ามีขนาดใหญ่พวกมันก็อยู่ใกล้กับอิสระนั่นหมายความว่าการกระจายขอบเป็นที่รู้จักง่าย ๆ แต่การกระจายข้อต่อมีความซับซ้อน) ตอนนี้ถ้า จำกัดมีอยู่จากนั้นจะสามารถแสดงให้เห็นว่าตัวประมาณค่าสัมประสิทธิ์เป็นตัวประมาณความสอดคล้องของสัมประสิทธิ์การถดถอยที่แท้จริงและส่วนที่เหลือเป็นตัวประมาณที่สอดคล้องกันของ ข้อผิดพลาดที่แท้จริงli=hi,inlimn→∞(xTx)/n=Δ
โดยพื้นฐานแล้วนี่หมายความว่าคุณทดสอบสมมติฐานการกระจายต้นแบบสำหรับเงื่อนไขข้อผิดพลาดโดยการเปรียบเทียบค่าส่วนที่เหลือของนักเรียนกับการแจกแจงแบบ T คุณสมบัติพื้นฐานแต่ละข้อของการแจกแจงข้อผิดพลาด (เส้นตรง, homoskedasticity, ข้อผิดพลาด uncorrelated, ภาวะปกติ) สามารถทดสอบได้โดยใช้คุณสมบัติคล้ายคลึงของการกระจายตัวของเศษซากนักเรียน หากระบุโมเดลอย่างถูกต้องดังนั้นสำหรับมีขนาดใหญ่ควรอยู่ใกล้กับเงื่อนไขข้อผิดพลาดจริงและมีรูปแบบการกระจายที่คล้ายกันn
การละเว้นตัวแปรอธิบายจากตัวแบบการถดถอยนำไปสู่การละเว้นอคติของตัวแปรในตัวประมาณค่าสัมประสิทธิ์และสิ่งนี้มีผลต่อการกระจายตัวที่เหลือ ทั้งค่าเฉลี่ยและความแปรปรวนของเวกเตอร์ที่เหลือได้รับผลกระทบจากตัวแปรที่ละเว้น ถ้าคำที่ถูกละเว้นในการถดถอยคือดังนั้นเวกเตอร์ที่เหลือจะกลายเป็นepsilon}) ถ้าข้อมูลเวกเตอร์ในเมทริกซ์ที่ถูกตัดเป็นเวกเตอร์ปกติของ IID และเป็นอิสระจากข้อกำหนดข้อผิดพลาดแล้วZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) เพื่อให้การกระจายตัวที่เหลือกลายเป็น:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
หากมีคำศัพท์ดักจับอยู่แล้วในแบบจำลอง (เช่นถ้าหน่วยเวกเตอร์อยู่ในเมทริกซ์การออกแบบ) ดังนั้น1(I−h)1=0ซึ่งหมายความว่ารูปแบบการกระจายมาตรฐานของส่วนที่เหลือจะถูกเก็บรักษาไว้ หากไม่มีคำดักจับในโมเดลตัวแปรที่ละเว้นอาจให้ค่าเฉลี่ยที่ไม่ใช่ศูนย์สำหรับค่าส่วนที่เหลือ หรือถ้าตัวแปรที่ละเว้นนั้นไม่ใช่ IID ปกติก็สามารถนำไปสู่การเบี่ยงเบนอื่น ๆ จากการแจกแจงส่วนที่เหลือมาตรฐาน ในกรณีหลังนี้การทดสอบที่เหลือไม่น่าจะตรวจจับสิ่งใดที่เป็นผลมาจากการมีตัวแปรที่ถูกตัดออก มันเป็นไปไม่ได้ที่จะตัดสินว่าการเบี่ยงเบนจากการแจกแจงเชิงทฤษฎีเกิดขึ้นเนื่องจากตัวแปรที่ละเว้นหรือเนื่องจากความสัมพันธ์ที่ไม่ดีกับตัวแปรที่รวมอยู่ (และเนื้อหาเหล่านี้เป็นสิ่งเดียวกันในทุกกรณี)