พิสูจน์สูตร LOOCV


18

จากบทนำสู่การเรียนรู้เชิงสถิติโดย James et al. การประมาณค่าการตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) ถูกกำหนดโดย ที่ 2CV ( n ) = 1n n Σฉัน=1MSEฉัน

CV(n)=1ni=1nMSEi
MSEฉัน=(y ที่ฉัน - Yฉัน)2MSEi=(yiy^i)2

โดยไม่มีการพิสูจน์สมการ (5.2) ระบุว่าสำหรับการถดถอยแบบพหุนามหรือพหุนามอย่างน้อยที่สุด (ไม่ว่าสิ่งนี้จะนำไปใช้กับการถดถอยของตัวแปรเพียงตัวเดียวไม่รู้จักกับฉัน) โดยที่ "คือ TH ค่าติดตั้งจากน้อยสแควร์เดิมพอดี ( ความคิดที่ไม่มีสิ่งนี้หมายความว่าโดยวิธีการที่มันไม่ได้หมายความว่าจากการใช้ทั้งหมดของจุดในชุดข้อมูล?) และคืองัด" ซึ่งถูกกำหนดโดยCV ( n ) = 1n n Σฉัน=1( Y ฉัน- Yฉัน1 - เอชฉัน )2ปีฉันฉัน

CV(n)=1ni=1n(yiy^i1hi)2
y^iih i hih i = 1n +(xi- ˉ x )2n Σ J=1(xJ- ˉ x )2
hi=1n+(xix¯)2j=1n(xjx¯)2.

เราจะพิสูจน์สิ่งนี้ได้อย่างไร

ความพยายามของฉัน: หนึ่งอาจเริ่มต้นด้วยการสังเกตว่า แต่แยกออกจากกัน จากนี้ (และถ้าฉันจำได้ว่าสูตรสำหรับนั้นเป็นจริงสำหรับการถดถอยเชิงเส้นอย่างง่ายเท่านั้น ... ) ฉันไม่แน่ใจว่าจะดำเนินการต่อจากที่นี่ได้อย่างไรYฉัน=β0+ k Σฉัน=1βkXk+บางแง่พหุนามของปริญญา 2ชั่วโมงฉัน

y^i=β0+i=1kβkXk+some polynomial terms of degree 2
hi

สมการของคุณดูเหมือนจะใช้iiมากกว่าหนึ่งอย่างหรือสับสนอย่างมาก ทั้งสองวิธีความชัดเจนเพิ่มเติมจะดี
Glen_b -Reinstate Monica

@Glen_b ฉันเพิ่งเรียนรู้เกี่ยวกับ LOOCV เมื่อวานนี้ดังนั้นฉันอาจไม่เข้าใจบางสิ่งอย่างถูกต้อง จากสิ่งที่ฉันเข้าใจคุณมีชุดของจุดข้อมูลพูดX = { ( x ฉัน , Y ฉัน ) : ฉันZ +X={(xi,yi):iZ+} } ด้วย LOOCV คุณมีการตรวจสอบความถูกต้องแต่ละค่า (จำนวนเต็มบวก) kkการตรวจสอบความถูกต้องV k = { ( x k , y k ) }Vk={(xk,yk)}และชุดทดสอบT k = XV k ที่Tk=XVkใช้ในการสร้างแบบจำลองสำหรับแต่ละคนเคk . ดังนั้นพูดเช่นเราเหมาะสมกับรูปแบบของเราโดยใช้การถดถอยเชิงเส้นอย่างง่ายที่มีสามจุดข้อมูล X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 )X={(0,1),(1,2),(2,3)} } เราจะได้ (ต่อไป)
Clarinetist

@Glen_b V 1 = { ( 0 , 1 ) }V1={(0,1)}และT 1 = { ( 1 , 2 ) , ( 2 , 3 )T1={(1,2),(2,3)} } โดยใช้จุดในT 1T1เราจะพบว่าการใช้การถดถอยเชิงเส้นอย่างง่ายที่เราได้รับรูปแบบYฉัน = X + 1 จากนั้นเราคำนวณMSEโดยใช้V 1เป็นชุดการตรวจสอบความถูกต้องและรับy 1 = 1y^i=X+1MSEV1y1=1(เพียงใช้จุดที่กำหนด) และY ( 1 ) 1 = 0 + 1 = 1ให้MSE 1 = 0 ตกลงบางทีการใช้ตัวยกไม่ใช่ความคิดที่ดีที่สุด - ฉันจะเปลี่ยนแปลงสิ่งนี้ในโพสต์ดั้งเดิม y^(1)1=0+1=1MSE1=0
คลาริเน็ต

นี่คือบางส่วนเอกสารประกอบการบรรยายเกี่ยวกับการได้มาpages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...
ซาเวียร์ Bourret Sicotte

คำตอบ:


17

ฉันจะแสดงผลลัพธ์ของการถดถอยเชิงเส้นหลายครั้งไม่ว่า regressors จะเป็นพหุนามของX tหรือไม่ ในความเป็นจริงมันจะแสดงมากกว่าสิ่งที่คุณถามเล็กน้อยเพราะมันแสดงให้เห็นว่าแต่ละ LOOCV เหลือเหมือนกันกับน้ำหนักยกน้ำหนักที่สอดคล้องกันจากการถดถอยเต็มไม่เพียง แต่คุณจะได้รับข้อผิดพลาด LOOCV เช่นเดียวกับใน (5.2) อาจเป็นวิธีอื่น ๆ ที่ค่าเฉลี่ยเห็นด้วยแม้ว่าจะไม่ใช่แต่ละคำในค่าเฉลี่ยก็เหมือนกัน)Xt

ให้ฉันใช้เสรีภาพในการใช้สัญกรณ์ดัดแปลงเล็กน้อย

ครั้งแรกที่เราแสดงให้เห็นว่า β - β ( T )= ( ยูที1 - เอชที )(X'X)-1X ' T ,(A) ที่ βเป็นประมาณการโดยใช้ข้อมูลทั้งหมดและ β (T)ประมาณการเมื่อออกจากX(T)สังเกตที ขอให้เอ็กซ์ทีได้รับการกำหนดให้เป็นเวกเตอร์แถวดังกล่าวว่า Y T=Xเสื้อβ ยูทีมีความคลาดเคลื่อน

β^β^(t)=(u^t1ht)(XX)1Xt,(A)
β^β^(t)X(t)tXty^t=Xtβ^u^t

การพิสูจน์ใช้ผลพีชคณิตเมทริกซ์ต่อไปนี้

Let AA be a nonsingular matrix, bb a vector and λλ a scalar. If λ1bA1b

λ1bA1b
Then (A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 
(A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 

The proof of (B) follows immediately from verifying {A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

{A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

The following result is helpful to prove (A)

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

Proof of (C): By (B) we have, using Tt=1XtXt=XXTt=1XtXt=XX, (X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.

(X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.
So we find (X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.
(X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.

The proof of (A) now follows from (C): As XXˆβ=Xy,

XXβ^=Xy,
we have (X(t)X(t)+XtXt)ˆβ=X(t)y(t)+Xtyt,
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
or {Ik+(X(t)X(t))1XtXt}ˆβ=ˆβ(t)+(X(t)X(t))1Xt(Xtˆβ+ˆut).
{Ik+(X(t)X(t))1XtXt}β^=β^(t)+(X(t)X(t))1Xt(Xtβ^+u^t).
So, ˆβ=ˆβ(t)+(X(t)X(t))1Xtˆut=ˆβ(t)+(XX)1Xtˆut1ht,
β^=β^(t)+(X(t)X(t))1Xtu^t=β^(t)+(XX)1Xtu^t1ht,
where the last equality follows from (C).

Now, note ht=Xt(XX)1Xtht=Xt(XX)1Xt. Multiply through in (A) by XtXt, add ytyt on both sides and rearrange to get, with ˆu(t)u^(t) the residuals resulting from using ˆβ(t)β^(t) (ytXtˆβ(t)ytXtβ^(t)), ˆu(t)=ˆut+(ˆut1ht)ht

u^(t)=u^t+(u^t1ht)ht
or ˆu(t)=ˆut(1ht)+ˆutht1ht=ˆut1ht
u^(t)=u^t(1ht)+u^tht1ht=u^t1ht

The definition for X(t)X(t) is missing in your answer. I assume this is a matrix XX with row XtXt removed.
mpiktas

Also mentioning the fact that XX=Tt=1XtXtXX=Tt=1XtXt would be helpful too.
mpiktas

@mpiktas, yes, thanks for the pointers. I edited to take the first comment into account. Where exactly would the second help? Or just leave it in your comment?
Christoph Hanck

3
When you start the proof of (C) you write (X(t)X(t))1=(XXXtXt)1(X(t)X(t))1=(XXXtXt)1. That is a nice trick, but I doubt that casual reader is aware of it.
mpiktas

1
Two years later... I appreciate this answer even more, now that I've gone through a graduate-level linear models sequence. I'm re-learning this material with this new perspective. Do you have any suggested references (textbooks?) which go through derivations like what you have in this answer in detail?
Clarinetist
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.