ถ้า p> n, lasso เลือกได้ไม่เกิน n ตัวแปร


13

แรงจูงใจอย่างหนึ่งของตาข่ายยางยืดคือข้อ จำกัด ของ LASSO ดังต่อไปนี้:

ในกรณีสายบาศกเลือกตัวแปร n ส่วนใหญ่ก่อนที่จะอิ่มตัวเนื่องจากลักษณะของปัญหาการปรับให้เหมาะสมของนูน นี่ดูเหมือนจะเป็นคุณสมบัติที่ จำกัด สำหรับวิธีการเลือกตัวแปร ยิ่งไปกว่านั้นเชือกไม่ได้กำหนดไว้อย่างชัดเจนเว้นแต่ขอบเขตของ L1-norm ของสัมประสิทธิ์มีค่าน้อยกว่าค่าที่แน่นอนp>n

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

ฉันเข้าใจว่า LASSO เป็นปัญหาการเขียนโปรแกรมสมการกำลังสอง แต่ยังสามารถแก้ไขได้ผ่าน LARS หรือการไล่ระดับสีแบบองค์ประกอบที่ชาญฉลาด แต่ฉันไม่เข้าใจว่าในอัลกอริธึมเหล่านี้ฉันพบปัญหาหรือไม่ถ้าโดยที่คือจำนวนตัวทำนายและคือขนาดตัวอย่าง และทำไมปัญหานี้แก้ไขได้โดยใช้สุทธิยืดหยุ่นที่ฉันเพิ่มปัญหาไปตัวแปรที่ชัดเจนเกินหน้าp n p + n pp>npnp+np


2
ถ้าบ่วงบาศ จำกัด ใช้ในการรักษา p <= n ทำไมจึงเป็นข้อเสียเปรียบมากกว่าคุณธรรม การ overfitting เป็นปัญหาร้ายแรงที่เกิดขึ้นเมื่อ p = n โมเดลที่มี p = n นั้นเป็นโมเดลที่อิ่มตัวและบ่อยครั้งที่โมเดลนั้น overfits เพราะมันจะพอดีกับข้อมูลที่สังเกตได้อย่างสมบูรณ์แบบ แต่ไม่จำเป็นต้องคาดการณ์ผู้ป่วยในอนาคต
Michael R. Chernick

3
Lasso เลือกได้เฉพาะตัวแปรไม่เกินตัวเท่านั้นซึ่งเป็นผลมาจากความจริงที่ว่ามันสามารถแก้ไขได้โดยใช้อัลกอริธึม LARS (แก้ไขเล็กน้อย) ซึ่งยอมรับตัวแปรสูงสุดถึงตัวแปรในชุดที่แอคทีฟเพียงครั้งเดียว สิ่งนี้ไม่ได้อยู่ในกรณีที่ยืดหยุ่นได้โดยการรวมตัวกันของลงโทษและพฤติกรรมเช่นเดียวกับสันเขาถดถอยซึ่งโดยทั่วไปแล้วจะส่งผลให้สัมประสิทธิ์ทั้งหมดเป็นศูนย์ n 2nn2
พระคาร์ดินัล

ขอบคุณสำหรับคำตอบและฉันจะดูอย่างไรสำหรับการไล่ระดับสีที่ตัวแปร n ส่วนใหญ่สามารถเลือกได้: การนำเสนอที่cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ ...กระดาษ (มาตรา 4) ที่datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@ ผู้ใช้: ฉันคิดว่าคุณอาจจะทำให้ปัญหาทางคณิตศาสตร์กับวิธีแก้ปัญหาเชิงตัวเลข อัลกอริทึม LARS แสดงให้เห็นว่าการแก้ปัญหา lasso จะเลือกตัวแปรที่มากที่สุดนี่เป็นวิธีที่ไม่ขึ้นอยู่กับตัวเลขที่แท้จริงสำหรับวิธีการแก้ปัญหานั่นคืออัลกอริทึม LARS ให้ข้อมูลเชิงลึกเกี่ยวกับปัญหา แต่แน่นอนว่าวิธีการอื่นใดที่แก้ปัญหาต้องมีคุณสมบัติเหมือนกัน! :-)n
สำคัญ

พิจารณาคุณสมบัติที่ซ้ำกันครั้ง จะมีตัวประมาณค่าแบบบ่วงบาศที่มีไม่ใช่ศูนย์อย่างแน่นอน(แม้ว่า ) ดังนั้นข้อความของคุณไม่เป็นจริงตามที่เขียน p p > nppp>n
user795305

คำตอบ:


10

ดังที่ได้กล่าวมานี้ไม่ใช่คุณสมบัติของอัลกอริทึม แต่เป็นปัญหาการปรับให้เหมาะสม เงื่อนไขของ KKT นั้นให้ค่าสัมประสิทธิ์ไม่เป็นศูนย์โดยจะต้องสอดคล้องกับความสัมพันธ์คงที่กับส่วนที่เหลือ (เป็นพารามิเตอร์การทำให้เป็นมาตรฐาน)| X t j ( y - X β ) | = λ λβj|Xjt(yXβ)|=λλ

หลังจากแก้ไขภาวะแทรกซ้อนต่าง ๆ ด้วยค่าสัมบูรณ์แล้วคุณก็จะได้สมการเชิงเส้นสำหรับสัมประสิทธิ์ที่ไม่เป็นศูนย์แต่ละตัว เนื่องจากอันดับของเมทริกซ์คือมากที่สุดเมื่อนี่คือจำนวนของสมการที่สามารถแก้ไขได้และดังนั้นจึงมีค่าเป็นศูนย์ที่ไม่ใช่ n ส่วนใหญ่ (เว้นแต่จะมีความซ้ำซ้อน)n p > nXnp>n

โดยวิธีการนี้เป็นจริงสำหรับฟังก์ชั่นการสูญเสียใด ๆ ไม่เพียง แต่บ่วงมาตรฐานที่มีการสูญเสียดังนั้นจึงเป็นทรัพย์สินของการลงโทษบ่วงบาศ มีเอกสารมากมายที่แสดงมุมมอง KKT นี้และข้อสรุปที่เกิดขึ้นฉันสามารถชี้ไปที่กระดาษของเรา: Rosset และ Zhu, เส้นทางการแก้ปัญหาเชิงเส้นเชิงเส้น Piecewise, พงศาวดารของสถิติปี 2007 และอ้างอิงในนั้นL2


KKT ยืนหยัดเพื่ออะไร? นอกจากนี้เป็นไปได้ไหมที่คุณหมายถึงการสูญเสีย L1 เมื่อพูดถึง Lasso มาตรฐาน?
miura

สวัสดี Saharon และยินดีต้อนรับสู่เว็บไซต์ คุณสามารถใช้ LaTeX เพื่อสร้างสูตร neater (ฉันทำในคำตอบของคุณ) และคุณไม่จำเป็นต้องลงชื่อโพสต์ของคุณเนื่องจากลายเซ็นจะถูกเพิ่มโดยอัตโนมัติ
Peter Flom - Reinstate Monica

1
@miura: KKT ย่อมาจาก Karush-Kuhn-Tucker เงื่อนไข KKT มีสมการบางอย่างที่จะแก้ไขปัญหาความ (ปกติพอ) ปัญหาการเพิ่มประสิทธิภาพจะต้องปฏิบัติตาม ( บทความวิกิพีเดีย )
mogron

ฉันเพิ่งเห็นว่า Ryan Tibshirani มีบทความเกี่ยวกับการทำงาน 'The Lasso Problem and Uniqueness': stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731

6

n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

ได้ลดลง


(+1) มีช่องว่างที่นี่: ดูความคิดเห็นของฉันในโพสต์ OPs
user795305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.