เหตุใดจึงใช้การประมาณแบบ Lasso ในการประมาณ OLS กับชุดย่อยของตัวแปรแบบ Lasso


26

k βลิตรs s o = ( β ลิตรs s o 1 , β ลิตรs s o 2 , . . . , β ลิตร

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

เรารู้ว่าเป็น การประเมินแบบเอนเอียงดังนั้นทำไมเรายังคงใช้เป็นทางออกสุดท้ายแทนที่จะเป็น 'สมเหตุสมผล' มากขึ้น\ hat {\ beta} ^ {new} = \ left (\ hat {\ beta} _ {1: k} ^ {ใหม่}, 0, ... , 0 \ right)โดยที่\ hat {\ beta} _ {1: k} ^ {new}คือการประมาณ LS จากแบบจำลองบางส่วนL ^ {ใหม่} (\ beta_ {1: k}) = (X_ {1: k} \ beta-y) '(X_ {1: k } \ เบต้า y) ( X_ {1: k}หมายถึงคอลัมน์ของX ที่สอดคล้องกับคุณสมบัติที่เลือกk )( β 1 , β 2 , . . . , β k ) βลิตรs s o β n E W = ((β^1lasso,β^2lasso,...,β^klasso)(β1,β2,...,βk)β^lasso β n E W 1β^new=(β^1:knew,0,...,0)β^1:knewLnew(β1:k)=(X1:kβy)(X1:kβy)X1:kXk

โดยสังเขปทำไมเราถึงใช้ Lasso ทั้งในการเลือกคุณสมบัติและสำหรับการประมาณค่าพารามิเตอร์แทนที่จะเลือกเฉพาะการเลือกตัวแปร (และปล่อยให้การประมาณค่าบนคุณสมบัติที่เลือกไปยัง OLS)

(นอกจากนี้มันหมายความว่า 'Lasso สามารถเลือกได้สูงสุดคุณสมบัติ'คือขนาดตัวอย่าง)nn


1
นั่นเป็นคำถามที่ดีมาก คุณลองแบบจำลองสองสามครั้งเพื่อดูว่าผลที่ได้จะแตกต่างจาก Lasso มาตรฐานหรือไม่หากคุณลองใช้วิธีของคุณเอง
Placidia

3
คุณเข้าใจวัตถุประสงค์ของ "การหดตัว" ใน LASSO หรือไม่?
Michael M

6
แนวคิดในการลดค่าสัมประสิทธิ์ให้ถูกต้องแม่นยำเพราะคุณเลือกค่าที่มากที่สุด การประมาณกำลังสองน้อยที่สุดจะไม่เอนเอียงอีกต่อไปเมื่อคุณเลือกคุณลักษณะล่วงหน้าแล้ว
Scortchi - Reinstate Monica

2
ดูคำถามต่อไปนี้สำหรับคำตอบที่ดีในการ "วิธีการหดตัววิธีแก้ปัญหาอะไร" stats.stackexchange.com/questions/20295/…
DL Dahly

2
เพื่อความชัดเจน: ไม่ได้บอกว่า @Scortchi ผิด แต่นี่เป็นพื้นที่สีเทาเล็กน้อยเมื่อพูดถึงการเลือกคุณสมบัติและฉันคิดว่านี่เป็นประเด็นทางเทคนิคที่สำคัญที่ควรทำให้ชัดเจน
JohnA

คำตอบ:


27

ฉันไม่เชื่อว่ามีอะไรผิดปกติกับการใช้ LASSO สำหรับการเลือกตัวแปรแล้วใช้ OLS จาก " องค์ประกอบของการเรียนรู้ทางสถิติ " (หน้า 91)

... การหดตัวเชือกทำให้เกิดการประมาณการของที่ไม่ใช่ศูนย์สัมประสิทธิ์ที่จะลำเอียงไปทางศูนย์และโดยทั่วไปพวกเขาจะไม่สอดคล้องกัน[ เพิ่มหมายเหตุ:วิธีการนี้ว่าเป็นขนาดของกลุ่มตัวอย่างที่เติบโตขึ้นประมาณการค่าสัมประสิทธิ์ไม่บรรจบกัน] วิธีการหนึ่งในการลดอคตินี้คือการเรียกใช้ lasso เพื่อระบุชุดของสัมประสิทธิ์ที่ไม่เป็นศูนย์จากนั้นจึงปรับโมเดลเชิงเส้นที่ไม่ถูก จำกัด เข้ากับชุดคุณลักษณะที่เลือกไว้ อาจไม่สามารถทำได้หากชุดที่เลือกมีขนาดใหญ่ อีกวิธีหนึ่งสามารถใช้ lasso เพื่อเลือกชุดของตัวทำนายที่ไม่เป็นศูนย์แล้วใช้เชือกอีกครั้ง แต่ใช้เฉพาะตัวทำนายที่เลือกจากขั้นตอนแรก สิ่งนี้เรียกว่าบ่วงบาศที่ผ่อนคลาย(Meinshausen, 2007) แนวคิดคือการใช้การตรวจสอบความถูกต้องข้ามเพื่อประเมินพารามิเตอร์การลงโทษเริ่มต้นสำหรับเชือกและจากนั้นอีกครั้งสำหรับพารามิเตอร์การลงโทษที่สองที่ใช้กับชุดของตัวทำนายที่เลือก เนื่องจากตัวแปรในขั้นตอนที่สองมี "การแข่งขัน" น้อยกว่าจากตัวแปรเสียงการตรวจสอบข้ามจึงมีแนวโน้มที่จะเลือกค่าที่น้อยกว่าสำหรับ [พารามิเตอร์การลงโทษ] และดังนั้นค่าสัมประสิทธิ์ของพวกเขาจะหดน้อยกว่าที่ประเมินเบื้องต้นλ

อีกวิธีการที่สมเหตุสมผลคล้ายกันในจิตวิญญาณกับบ่วงบาศที่ผ่อนคลายจะต้องใช้บ่วงบาศครั้งเดียว (หรือหลายครั้งตามกันไป) เพื่อระบุกลุ่มของตัวแปรทำนายผู้สมัคร จากนั้นใช้การถดถอยที่ดีที่สุดของชุดย่อยเพื่อเลือกตัวแปรตัวทำนายที่ดีที่สุดที่จะต้องพิจารณา (ดู "องค์ประกอบของการเรียนรู้ทางสถิติ" สำหรับเรื่องนี้) ในการทำงานคุณจะต้องปรับแต่งกลุ่มผู้ทำนายที่มีประมาณ 35 คนซึ่งจะไม่เป็นไปได้เสมอ คุณสามารถใช้การตรวจสอบข้ามหรือ AIC เป็นเกณฑ์เพื่อป้องกันการปรับตัวที่มากเกินไป


อีกส่วนหนึ่งของคำถามของฉันคือเหตุใด 'Lasso จึงสามารถเลือกได้ไม่เกินคุณสมบัติ' หากเป็นกรณีนี้ฉันคิดว่า OLS ในคุณสมบัติที่เลือกจะอย่างน้อย 'ดี' เนื่องจาก OLS เป็น 'BLUE' (ไม่ใช่สีฟ้าอย่างเคร่งครัดเนื่องจากมันลำเอียงเป็นส่วนใหญ่) เพียงแค่พิจารณาสถานการณ์ที่สุดยอดที่ Lasso เลือกคุณสมบัติที่ถูกต้องการใช้ OLS กับคุณสมบัติเหล่านี้จะคืนค่าโมเดลที่แท้จริงซึ่งฉันคิดว่าดีกว่าการประมาณ Lasso
yliueagle

2
ปัญหาคือว่า "สถานการณ์สุดโต่ง" นี้เกิดขึ้นได้ยากมากและไม่มีทางรู้ได้ว่า LASSO ได้เลือกคุณสมบัติที่เหมาะสมหรือไม่ ถ้า LASSO เลือกคุณสมบัติมากเกินไปฉันคิดว่ารุ่น OLS แบบเต็มอาจทำงานได้แย่กว่าที่ประเมินไว้โดย LASSO ในทำนองเดียวกันการถดถอยของสันสามารถทำได้ดีกว่า OLS หากมีคุณสมบัติมากเกินไป (เช่น OLS มากเกินไป)
Alex Williams

2
ดูเพิ่มเติมที่web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdfตอนท้ายของส่วนที่ 2.2: "[... ] สี่เหลี่ยมจัตุรัสที่น้อยที่สุดพอดีกับเซตย่อยของ [... ] ผู้ทำนายมีแนวโน้มที่จะขยายการประมาณเชือก อยู่ห่างจากศูนย์ค่าที่ไม่ใช่ศูนย์จาก lasso มีแนวโน้มที่จะเอนเอียงไปที่ศูนย์ดังนั้นการ debiasing ในแผงด้านขวามักจะสามารถปรับปรุงข้อผิดพลาดการทำนายของตัวแบบได้กระบวนการสองขั้นตอนนี้ยังเป็นที่รู้จักกันในชื่อ lasso ที่ผ่อนคลาย (Meinshausen 2007) ."
อะมีบาพูดว่า Reinstate Monica

1
ฉันมองเข้าไปในกระดาษ Meinshausen และแนะนำให้ปรับค่าปรับสองอย่างตามที่อธิบายไว้ในข้อความอ้างอิงของคุณจาก The Elements +1
อะมีบาพูดว่า Reinstate Monica

@AlexWilliams แต่ไม่ได้มีข้อสมมติฐาน sparsity ในวรรคก่อนหน้าเกี่ยวกับความสัมพันธ์ระหว่างชุดที่เลือกและสิ่งที่จะถูกลบออกมีขนาดเล็ก?
Dimitriy V. Masterov

15

หากเป้าหมายของคุณดีที่สุดในประสิทธิภาพของกลุ่มตัวอย่าง (wrt R-squared สูงสุด) ให้ใช้ OLS กับตัวแปรที่มีอยู่ทุกตัว การปล่อยตัวแปรจะลด R-squared

หากเป้าหมายของคุณคือประสิทธิภาพที่ดีนอกกลุ่มตัวอย่าง (ซึ่งโดยปกติจะเป็นสิ่งที่สำคัญกว่ามาก) กลยุทธ์ที่เสนอของคุณจะได้รับผลกระทบจากการ overfitting สองแหล่ง

  • การเลือกตัวแปรตามความสัมพันธ์กับตัวแปรตอบกลับ
  • ประมาณ OLS

วัตถุประสงค์ของ LASSO คือการลดขนาดการประมาณค่าพารามิเตอร์ไปที่ศูนย์เพื่อต่อสู้กับแหล่งที่มาของการให้ข้อมูลมากเกินไป การคาดการณ์ในตัวอย่างจะเลวร้ายยิ่งกว่า OLS เสมอ แต่ความหวังคือ (ขึ้นอยู่กับความแข็งแกร่งของการลงโทษ) เพื่อให้ได้พฤติกรรมออกนอกกลุ่มที่สมจริงยิ่งขึ้น

เกี่ยวกับ : สิ่งนี้ (อาจ) ขึ้นอยู่กับการนำ LASSO ที่คุณใช้ ตัวแปรลาร์ส (ถดถอยมุมน้อย) ไม่ได้อย่างง่ายดายทำงานP > np>np>n


2
"Leekasso" (เลือก 10 ค่าสัมประสิทธิ์เสมอ) แตกต่างจากข้อเสนอของคำถาม (ประเมินค่า OLS อีกครั้งโดยใช้ K ทำนายโดย LASSO)
Affine

@affine คุณพูดถูก ฉันลบการอ้างอิง
Michael M

2
ฟังดูสมเหตุสมผล แต่ผู้ประดิษฐ์ของ Lasso ให้เหตุผลเป็นอย่างอื่นและแนะนำให้ใช้ขั้นตอนสองขั้นตอนกับ OLS ในชุดย่อย Lasso ที่ระบุ (ตามที่ OP แนะนำ) ดูคำตอบ @ Alex'es
อะมีบาพูดว่า Reinstate Monica

ฉันชอบคำตอบนี้เพราะมันพูดถึงอคติการเลือกจากการค้นหาตัวเอง; มันแน่ใจว่ารู้สึกว่าควรมีการลงโทษเพิ่มเติม LASSO เป็นเพียงกลไกการเลือกชุดย่อย - มันคือทั้งหมดที่มันคืออะไร? ถ้าอย่างนั้นทำไมถึงต้องพิมพ์สัมประสิทธิ์ของมันเลย?
Ben Ogorek

3

เกี่ยวกับคำถาม OPs ว่าเหตุใด Lasso จึงสามารถเลือกคุณสมบัติได้มากที่สุดn :

XTXβ=(XTX)1XTY

XTX


1
(-1) ฉันไม่คิดว่านี่เป็นเรื่องจริง คุณช่วยอธิบายเพิ่มเติมการเชื่อมต่อระหว่างไม่มีอยู่กับบ่วงบาศได้หรือไม่? $ X ^ TX เกี่ยวข้องกับ lasso โดยเฉพาะอย่างไร มีบทพิสูจน์ของคำถาม OPS (คำตอบที่นี่มีการเปิดเผยเช่น: stats.stackexchange.com/questions/38299/…) แต่คำตอบนี้ไม่ปรากฏขึ้นเพื่อพิสูจน์ (โปรดแจ้งให้เราทราบหากฉันเข้าใจผิด!)(XTX)1
user795305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.