ในสัญลักษณ์ของคุณ H คือการประมาณการพื้นที่คอลัมน์ของ Xนั่นคือ subspace ซึ่งประกอบไปด้วย regressors ทั้งหมด ดังนั้นM:=In−H คือการฉายภาพทุกอย่างที่ตั้งฉากกับพื้นที่ย่อยที่ถูกขยายโดย regressors ทั้งหมด
ถ้า X∈Rn×kจากนั้น e^∈Rn คือการกระจายแบบเอกพจน์ปกติและองค์ประกอบมีความสัมพันธ์ตามที่คุณระบุ
ข้อผิดพลาด ε ไม่สามารถสังเกตเห็นได้และโดยทั่วไปไม่ได้ตั้งฉากกับพื้นที่ย่อยที่ถูกขยายโดย X. เพื่อประโยชน์ในการโต้แย้งสมมติว่าข้อผิดพลาดε⊥span(X). ถ้านี่เป็นเรื่องจริงเราก็คงจะมีy=Xβ+ε=y~+ε กับ y~⊥ε. ตั้งแต่y~=Xβ∈span(X)เราสามารถย่อยสลายได้ y และรับความจริง ε.
สมมติว่าเรามีพื้นฐาน b1,…,bn ของ Rnที่แรก b1,…,bk เวกเตอร์พื้นฐานขยายพื้นที่ย่อย span(X) และที่เหลือ ขk + 1,…,bn ระยะ span(X)⊥.
In general, the error ε=α1b1+…+αnbn จะมีองค์ประกอบที่ไม่ใช่ศูนย์ αi สำหรับ i∈{1,…,k}. ส่วนประกอบที่ไม่เป็นศูนย์นี้จะได้รับการผสมกับXβ และดังนั้นจึงไม่สามารถกู้คืนได้โดยการฉายบน span(X).
เนื่องจากเราไม่สามารถหวังที่จะกู้คืนข้อผิดพลาดที่แท้จริง ε และ e^ มีความสัมพันธ์เอกพจน์ nมิติปกติเราเปลี่ยนได้ e^∈Rn↦e∗∈Rn−k. ที่นั่นเราสามารถมีสิ่งนั้นได้
e∗∼Nn−k(0,σ2In−k),
กล่าวคือ
e∗ไม่มีการแจกแจงแบบไม่มีเอกพจน์และ homoscedastic ปกติ ของตกค้าง
e∗จะเรียกว่า
Theil ของเหลือ
ในบทความสั้น ๆเกี่ยวกับการทดสอบการถดถอยเพื่อความเป็นปรกติคุณจะพบการเปรียบเทียบของ OLS และ BLUS ที่เหลือ ในการตั้งค่า Monte Carlo ที่ทดสอบแล้วค่าตกค้าง OLS นั้นเหนือกว่าค่า BLUS แต่นี่ควรเป็นจุดเริ่มต้นให้คุณ