สัญชาตญาณความเป็นอิสระของลาซโซ


12

Zou และคณะ "ใน" องศาอิสระ "ของเชือก" (2007) แสดงให้เห็นว่าจำนวนของค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์เป็นค่าประมาณที่เป็นกลางและสม่ำเสมอสำหรับองศาอิสระของเชือก

ดูเหมือนว่าฉันจะต่อต้านได้ง่าย

  • สมมติว่าเรามีรูปแบบการถดถอย (โดยที่ตัวแปรมีค่าเฉลี่ยเป็นศูนย์)

y=βx+ε.
  • สมมติว่า OLS ไม่ จำกัด ประเมินของเป็นβ O L S = 0.5 มันอาจตรงกับประมาณการ LASSO ที่ประมาณβสำหรับความรุนแรงที่ต่ำมากββ^OLS=0.5β
  • สมมติต่อไปว่าประมาณการเชือกสำหรับความเข้มโทษโดยเฉพาะอย่างยิ่งเป็นβ L S S O , λ * = 0.4 ตัวอย่างเช่นλ อาจเป็น "ดีที่สุด" λสำหรับชุดข้อมูลที่อยู่ในมือโดยใช้การตรวจสอบข้าม λβ^LASSO,λ=0.4λλ
  • หากฉันเข้าใจอย่างถูกต้องทั้งสองกรณีระดับความเป็นอิสระเท่ากับ 1 เนื่องจากทั้งสองครั้งมีค่าสัมประสิทธิ์การถดถอยที่ไม่ใช่ศูนย์

คำถาม:

  • มาได้อย่างไรองศาอิสระในทั้งสองกรณีจะเหมือนกันแม้ว่าβ L S S O , λ * = 0.4แสดงให้เห็นน้อย "เสรีภาพ" ในการกระชับกว่าβ O L S = 0.5 ?β^LASSO,λ=0.4β^OLS=0.5

อ้างอิง:


1
คำถามที่ดีที่จะได้รับความสนใจมากขึ้น!
Matifou

คำตอบ:


8

n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

โดยการตรวจสอบสูตรนี้เราสามารถคาดการณ์ได้ว่าตามจริงแล้วสัญชาตญาณของคุณอานนท์ที่แท้จริงสำหรับ LASSO จะน้อยกว่าอานนท์ที่แท้จริงของ OLS ค่าสัมประสิทธิ์การหดตัวที่ได้รับผลกระทบจาก LASSO น่าจะมีแนวโน้มลดลงของค่าความแปรปรวนร่วม

ตอนนี้ที่จะตอบคำถามของคุณด้วยเหตุผลที่ว่าอานนท์สำหรับ Lasso เป็นเช่นเดียวกับอานนท์สำหรับ OLS ในตัวอย่างของคุณเป็นเพียงว่ามีคุณจะจัดการกับประมาณการ (แม้ว่าคนที่เป็นกลาง) ที่ได้รับจากชุดข้อมูลโดยเฉพาะอย่างยิ่งการเก็บตัวอย่างจากแบบจำลอง ของค่า DOF จริง สำหรับชุดข้อมูลใด ๆ การประมาณเช่นนี้จะไม่เท่ากับมูลค่าที่แท้จริง (โดยเฉพาะอย่างยิ่งเมื่อจำเป็นต้องมีการประมาณการให้เป็นจำนวนเต็มในขณะที่ค่าที่แท้จริงคือจำนวนจริงโดยทั่วไป)

λ


1
β^LASSO=0<1=1

ทำไมการประมาณค่าองศาความเป็นอิสระจำเป็นต้องเป็นจำนวนเต็ม? มันจริงเหรอ? ให้ฉันสังเกตว่าสัญกรณ์ผลิตภัณฑ์ภายในดูเหมือนซับซ้อนโดยไม่จำเป็นและไม่ค่อยได้ใช้บนไซต์นี้ สัญกรณ์เมทริกซ์จะเพียงพอ แต่มันเป็นทางเลือกของคุณแน่นอน
Richard Hardy

1
ใช่ว่าเกี่ยวกับผลรวมมันขึ้น การประมาณค่าองศาความเป็นอิสระจะต้องเป็นจำนวนเต็มสำหรับ LASSO (อย่างน้อยสำหรับชุดข้อมูลเดียว) เพียงเพราะการประมาณการเป็นจำนวนสัมประสิทธิ์ที่ไม่เป็นศูนย์
e2crawfo

1
คำสั่งการประมาณค่าองศาอิสระจะต้องมีจำนวนเต็มสำหรับ Lasso เพียงเพราะประมาณการคือจำนวนของที่ไม่ใช่ศูนย์สัมประสิทธิ์ดูเหมือนซ้ำขอให้ฉัน โดยทั่วไปฉันไม่คิดว่า df ต้องเป็นจำนวนเต็มจากคำจำกัดความของ df ที่คุณเขียน ในกรณีของสันเขามันไม่จำเป็นต้องเป็นศูนย์
Matifou
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.