นี่คือความแปรปรวน
OLS ให้สิ่งที่เรียกว่าดีที่สุดเป็น Linear เป็นกลางประมาณการ (สีฟ้า) นั่นหมายความว่าถ้าคุณใช้ตัวประมาณค่าอื่นใดก็จะต้องมีค่าความแปรปรวนสูงกว่านั้นก็คือโซลูชัน OLS ดังนั้นทำไมบนโลกนี้เราจึงควรพิจารณาอย่างอื่นมากกว่านี้?
ทีนี้เคล็ดลับที่มีการทำให้เป็นปกติเช่น lasso หรือ ridge ก็คือการเพิ่มอคติบางอย่างเพื่อพยายามลดความแปรปรวน เพราะเมื่อคุณประเมินข้อผิดพลาดการทำนายของคุณก็คือการรวมกันของสามสิ่ง :
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
ส่วนสุดท้ายคือข้อผิดพลาดลดลงดังนั้นเราจึงไม่สามารถควบคุมได้ การใช้โซลูชัน OLS คำว่าไบอัสเป็นศูนย์ แต่อาจเป็นไปได้ว่าคำศัพท์ที่สองนั้นมีขนาดใหญ่ อาจเป็นความคิดที่ดี (
ถ้าเราต้องการการคาดการณ์ที่ดี ) เพื่อเพิ่มอคติและหวังว่าจะลดความแปรปรวน
ดังนั้นสิ่งนี้ ? มันเป็นความแปรปรวนที่เกิดขึ้นในการประมาณค่าพารามิเตอร์ในแบบจำลองของคุณ ตัวแบบเชิงเส้นมีรูปแบบ
y = X β + ϵ ,Var[f^(x))]
ที่จะได้รับการแก้ปัญหา OLS เราแก้ปัญหาลด
หาเรื่องนาทีบีตา | | y - X β | | 2
แห่งนี้มีวิธีการแก้
β OLS = ( X T X ) - 1 X T Y
ปัญหาลดสำหรับการถดถอยสันเขาเป็นที่คล้ายกัน:
หาเรื่องนาทีβ | | y - X β | |
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
ตอนนี้การแก้ปัญหาจะกลายเป็น
β Ridge = ( X T X + λ ฉัน) - 1 X T Y
ดังนั้นเราจะเพิ่มนี้
λ ฉัน (เรียกว่าสัน) บนเส้นทแยงมุมของเมทริกซ์ที่เราหมุนส่วน ผลกระทบที่มีต่อเมทริกซ์
X T Xคือมัน "
ดึง" ดีเทอร์มีแนนต์ของเมทริกซ์ออกจากศูนย์ ดังนั้นเมื่อคุณกลับด้านคุณจะไม่ได้รับค่าลักษณะเฉพาะจำนวนมาก แต่นั่นนำไปสู่ข้อเท็จจริงที่น่าสนใจอีกประการหนึ่งนั่นคือความแปรปรวนของการประมาณพารามิเตอร์จะลดลง
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
λIXTX
ฉันไม่แน่ใจว่าฉันสามารถให้คำตอบที่ชัดเจนกว่านี้ได้ไหม สิ่งนี้จะลดลงเป็นเมทริกซ์ความแปรปรวนร่วมสำหรับพารามิเตอร์ในแบบจำลองและขนาดของค่าในเมทริกซ์ความแปรปรวนร่วมนั้น
ฉันเอาตัวอย่างการถดถอยของสันเขามาใช้เพราะนั่นเป็นวิธีที่ง่ายกว่ามากในการรักษา เชือกนั้นหนักกว่ามากและยังคงมีการวิจัยอย่างต่อเนื่องในหัวข้อนั้น
สไลด์เหล่านี้ให้ข้อมูลเพิ่มเติมและบล็อกนี้ยังมีข้อมูลที่เกี่ยวข้อง
แก้ไข:ฉันหมายความว่าอย่างไรโดยการเพิ่มสันเขาปัจจัยที่ " ดึง " ออกไปจากศูนย์?
XTX
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX−(t−λ)I)=0
(t−λ)titi+λλ
นี่คือรหัส R เพื่อแสดงสิ่งนี้:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
ซึ่งให้ผลลัพธ์:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
ค่าลักษณะเฉพาะทั้งหมดจะได้รับการเลื่อนขึ้น 3 ประการ
นอกจากนี้คุณยังสามารถพิสูจน์นี้โดยทั่วไปโดยใช้ทฤษฎีบทวงกลม Gershgorin ตรงกลางของวงกลมที่มีค่าลักษณะเฉพาะเป็นองค์ประกอบเส้นทแยงมุม คุณสามารถเพิ่ม "เพียงพอ" ลงในองค์ประกอบแนวทแยงเพื่อสร้างวงกลมทั้งหมดในระนาบครึ่งจริงบวก ผลลัพธ์นั้นกว้างกว่าและไม่จำเป็นสำหรับสิ่งนี้