ทำไมการถดถอยของสันเขาถึงไม่ลดทอนสัมประสิทธิ์ให้เป็นศูนย์อย่างเช่นบ่วงบาศ?


16

เมื่ออธิบายการถดถอยของ LASSO ไดอะแกรมของเพชรและวงกลมมักถูกนำมาใช้ ได้มีการกล่าวกันว่าเนื่องจากรูปร่างของข้อ จำกัด ใน LASSO เป็นเพชรวิธีแก้ปัญหาที่น้อยที่สุดที่ได้รับอาจแตะที่มุมของเพชรเพื่อให้เกิดการหดตัวของตัวแปรบางตัว อย่างไรก็ตามในการถดถอยของสันเขาเนื่องจากมันเป็นวงกลมมันมักจะไม่ได้สัมผัสกับแกน ฉันไม่เข้าใจว่าทำไมมันไม่สามารถแตะแกนหรืออาจมีความน่าจะเป็นต่ำกว่า LASSO เพื่อลดขนาดพารามิเตอร์บางอย่าง ทำไม LASSO และสันถึงมีความแปรปรวนต่ำกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุด? ข้างต้นคือความเข้าใจของฉันเกี่ยวกับสันและ LASSO และฉันอาจผิด ใครสามารถช่วยฉันเข้าใจว่าทำไมวิธีการถดถอยทั้งสองนี้จึงมีความแปรปรวนต่ำกว่า


1
ความซ้ำซ้อนที่เป็นไปได้ของเหตุใด Lasso จึงให้การเลือกตัวแปร?
Juho Kokkala

1
ตกลงส่วนความแปรปรวนเป็นตัวหนาไม่ซ้ำอย่างน้อยคำถามนี้ ดังนั้นอาจแก้ไขคำถามนี้เพื่อมุ่งเน้นที่
Juho Kokkala

นี่คือคำอธิบายที่ดีในรูปที่ 3.11 ของweb.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@fcop ฉันอ่านหนังสือ แต่ฉันไม่ค่อยเข้าใจคณิตศาสตร์
user10024395

แต่เพื่อให้เข้าใจภาพคุณไม่จำเป็นต้องใช้คณิตศาสตร์?

คำตอบ:


26

นี่คือความแปรปรวน

OLS ให้สิ่งที่เรียกว่าดีที่สุดเป็น Linear เป็นกลางประมาณการ (สีฟ้า) นั่นหมายความว่าถ้าคุณใช้ตัวประมาณค่าอื่นใดก็จะต้องมีค่าความแปรปรวนสูงกว่านั้นก็คือโซลูชัน OLS ดังนั้นทำไมบนโลกนี้เราจึงควรพิจารณาอย่างอื่นมากกว่านี้?

ทีนี้เคล็ดลับที่มีการทำให้เป็นปกติเช่น lasso หรือ ridge ก็คือการเพิ่มอคติบางอย่างเพื่อพยายามลดความแปรปรวน เพราะเมื่อคุณประเมินข้อผิดพลาดการทำนายของคุณก็คือการรวมกันของสามสิ่ง :

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
ส่วนสุดท้ายคือข้อผิดพลาดลดลงดังนั้นเราจึงไม่สามารถควบคุมได้ การใช้โซลูชัน OLS คำว่าไบอัสเป็นศูนย์ แต่อาจเป็นไปได้ว่าคำศัพท์ที่สองนั้นมีขนาดใหญ่ อาจเป็นความคิดที่ดี ( ถ้าเราต้องการการคาดการณ์ที่ดี ) เพื่อเพิ่มอคติและหวังว่าจะลดความแปรปรวน

ดังนั้นสิ่งนี้ ? มันเป็นความแปรปรวนที่เกิดขึ้นในการประมาณค่าพารามิเตอร์ในแบบจำลองของคุณ ตัวแบบเชิงเส้นมีรูปแบบ y = X β + ϵ ,Var[f^(x))] ที่จะได้รับการแก้ปัญหา OLS เราแก้ปัญหาลด หาเรื่องนาทีบีตา | | y - X β | | 2 แห่งนี้มีวิธีการแก้ β OLS = ( X T X ) - 1 X T Y ปัญหาลดสำหรับการถดถอยสันเขาเป็นที่คล้ายกัน: หาเรื่องนาทีβ | | y - X β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
ตอนนี้การแก้ปัญหาจะกลายเป็น β Ridge = ( X T X + λ ฉัน) - 1 X T Y ดังนั้นเราจะเพิ่มนี้ λ ฉัน (เรียกว่าสัน) บนเส้นทแยงมุมของเมทริกซ์ที่เราหมุนส่วน ผลกระทบที่มีต่อเมทริกซ์ X T Xคือมัน "ดึง" ดีเทอร์มีแนนต์ของเมทริกซ์ออกจากศูนย์ ดังนั้นเมื่อคุณกลับด้านคุณจะไม่ได้รับค่าลักษณะเฉพาะจำนวนมาก แต่นั่นนำไปสู่ข้อเท็จจริงที่น่าสนใจอีกประการหนึ่งนั่นคือความแปรปรวนของการประมาณพารามิเตอร์จะลดลง
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
λIXTX

ฉันไม่แน่ใจว่าฉันสามารถให้คำตอบที่ชัดเจนกว่านี้ได้ไหม สิ่งนี้จะลดลงเป็นเมทริกซ์ความแปรปรวนร่วมสำหรับพารามิเตอร์ในแบบจำลองและขนาดของค่าในเมทริกซ์ความแปรปรวนร่วมนั้น

ฉันเอาตัวอย่างการถดถอยของสันเขามาใช้เพราะนั่นเป็นวิธีที่ง่ายกว่ามากในการรักษา เชือกนั้นหนักกว่ามากและยังคงมีการวิจัยอย่างต่อเนื่องในหัวข้อนั้น

สไลด์เหล่านี้ให้ข้อมูลเพิ่มเติมและบล็อกนี้ยังมีข้อมูลที่เกี่ยวข้อง

แก้ไข:ฉันหมายความว่าอย่างไรโดยการเพิ่มสันเขาปัจจัยที่ " ดึง " ออกไปจากศูนย์?

XTX

det(XTXtI)=0
t
det(XTX+λItI)=0
det(XTX(tλ)I)=0
(tλ)titi+λλ

นี่คือรหัส R เพื่อแสดงสิ่งนี้:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

ซึ่งให้ผลลัพธ์:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

ค่าลักษณะเฉพาะทั้งหมดจะได้รับการเลื่อนขึ้น 3 ประการ

นอกจากนี้คุณยังสามารถพิสูจน์นี้โดยทั่วไปโดยใช้ทฤษฎีบทวงกลม Gershgorin ตรงกลางของวงกลมที่มีค่าลักษณะเฉพาะเป็นองค์ประกอบเส้นทแยงมุม คุณสามารถเพิ่ม "เพียงพอ" ลงในองค์ประกอบแนวทแยงเพื่อสร้างวงกลมทั้งหมดในระนาบครึ่งจริงบวก ผลลัพธ์นั้นกว้างกว่าและไม่จำเป็นสำหรับสิ่งนี้


คุณช่วยอธิบายว่ามัน "ดึง" ดีเทอร์มีแนนท์ออกจากศูนย์ได้อย่างไร (ทางคณิตศาสตร์)? ขอบคุณ
user10024395

@ user2675516 ฉันได้แก้ไขคำตอบของฉัน
Gumeo

"นั่นหมายความว่าถ้าคุณใช้ตัวประมาณค่าอื่นใดก็จะต้องมีค่าความแปรปรวนสูงกว่านั้นก็คือโซลูชัน OLS" คุณหมายถึงอคติที่สูงกว่า OLS หรือไม่? ฉันคิดว่า OLS มีอคติน้อยที่สุดดังนั้นสิ่งอื่น ๆ ก็จะมีอคติสูงกว่า กรุณาชี้แจง
GeorgeOfTheRF

@ML_Pro OLS มีศูนย์อคติและตัวประมาณที่ไม่เอนเอียงทั้งหมดมีความแปรปรวนน้อยที่สุด นี่คือทฤษฎีบท ดังนั้นถ้าคุณเลือกอันอื่นความแปรปรวนจะเพิ่มขึ้น แต่ถ้าคุณทำให้ปกติคุณแนะนำอคติ
Gumeo

ขอบคุณ! คำตอบของคุณทำให้ฉันอยากรู้ คุณสามารถตอบคำถามใหม่นี้ที่ฉันสร้างขึ้นได้ไหม stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

การถดถอยของสัน

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

จะแก้สมการนี้เพียงครั้งเดียวสำหรับตอนนี้และต่อไปคุณจะสามารถสรุปได้ดังนี้

ดังนั้น (y-xβ) ^ 2 + λβ ^ 2 นี่คือสมการของเราสำหรับหนึ่งβ

เป้าหมายของเราคือการลดสมการข้างต้นให้น้อยที่สุดเพื่อให้สามารถทำสิ่งนี้ได้จะทำให้สมการนี้เป็นศูนย์และใช้อนุพันธ์ wr

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- การใช้ (ab) ^ 2 ส่วนขยาย

สัญญาซื้อขายล่วงหน้าบางส่วน

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

ในที่สุด

β = xy / (x ^ 2 + λ)

หากคุณสังเกตเห็นตัวส่วนมันจะไม่กลายเป็นศูนย์เนื่องจากเราเพิ่มค่าของ of (เช่นพารามิเตอร์ไฮเปอร์) ดังนั้นค่าของβจะต่ำที่สุดเท่าที่จะเป็นไปได้ แต่จะไม่กลายเป็นศูนย์

การถดถอย LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

จะแก้สมการนี้เพียงครั้งเดียวสำหรับตอนนี้และต่อไปคุณจะสามารถสรุปให้มากกว่านี้

ดังนั้น (y-xβ) ^ 2 + λβนี่คือสมการของเราสำหรับหนึ่งβ, ที่นี่ฉันได้พิจารณา + ค่าของβ

เป้าหมายของเราคือการลดสมการข้างต้นให้น้อยที่สุดเพื่อให้สามารถทำสิ่งนี้ได้จะทำให้สมการนี้เป็นศูนย์และใช้อนุพันธ์ wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- การใช้ (ab) ^ 2 ส่วนขยาย

สัญญาซื้อขายล่วงหน้าบางส่วน

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ = 2β 2xy-λ

ในที่สุด

β = (2xy-λ) / (2X ^ 2)

หากคุณสังเกตตัวเศษมันจะกลายเป็นศูนย์เนื่องจากเราลบค่าบางส่วนของλ (เช่นพารามิเตอร์ไฮเปอร์) ดังนั้นค่าของβจะถูกตั้งค่าเป็นศูนย์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.