ทำไม Lasso ถึงเลือก Variable


76

ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันอยากจะรู้ว่าทำไม Lasso ถึงเลือกตัวแปรและการถดถอยแบบสันไม่ได้

ทั้งสองวิธีลดผลรวมการตกค้างของสี่เหลี่ยมและมีข้อ จำกัด เกี่ยวกับค่าที่เป็นไปได้ของพารามิเตอร์\สำหรับคล้องข้อ จำกัด คือ , ในขณะที่สำหรับสันมันเป็นสำหรับบางคนทีβ||β||1t||β||2tt

ฉันเคยเห็นรูป Diamond vs ellipse ในหนังสือแล้วและฉันมีสัญชาตญาณว่าทำไม Lasso ถึงมุมของภูมิภาคที่ถูก จำกัด ซึ่งหมายความว่าหนึ่งในสัมประสิทธิ์ถูกตั้งค่าเป็นศูนย์ อย่างไรก็ตามสัญชาตญาณของฉันค่อนข้างอ่อนแอและฉันไม่มั่นใจ มันควรจะเห็นง่าย แต่ฉันไม่รู้ว่าทำไมเรื่องนี้ถึงเป็นจริง

ดังนั้นฉันเดาว่าฉันกำลังมองหาเหตุผลทางคณิตศาสตร์หรือคำอธิบายที่เข้าใจง่ายว่าทำไมรูปทรงของผลรวมที่เหลือของกำลังสองมีแนวโน้มที่จะเข้ามุมของ ขอบเขต จำกัด (ในขณะที่สถานการณ์นี้ไม่น่าจะเกิดขึ้นถ้า ข้อ จำกัด คือ )||β||1||β||2


คำตอบทั้งหมดด้านล่างนี้เป็นคำอธิบายที่ดี แต่ฉันเอาบทความที่มีภาพแทน ต่อไปนี้คือลิงค์medium.com/@vamsi149/…
solver149

คำตอบ:


70

ลองพิจารณารูปแบบที่ง่ายมาก:มีโทษ L1 บนและอย่างน้อยสี่เหลี่ยมฟังก์ชั่นการสูญเสียใน{E} เราสามารถขยายการแสดงออกที่จะลดลงเป็น:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

ให้เราสมมติว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดคือซึ่งเทียบเท่ากับสมมติว่าและดูว่าเกิดอะไรขึ้นเมื่อเราเพิ่มการลงโทษ L1 ด้วย ,ดังนั้นระยะโทษเท่ากับ2อนุพันธ์ของฟังก์ชั่นวัตถุประสงค์ wrtคือ:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

ซึ่งเห็นได้ชัดว่ามีทางออกTX) β^=(yTxλ)/(xTx)

เห็นได้ชัดจากการเพิ่มเราสามารถขับเป็นศูนย์ได้ (ที่ ) อย่างไรก็ตามเมื่อเพิ่มจะไม่ทำให้เกิดผลลบเนื่องจากการเขียนอย่างหลวม ๆ ทันทีจะกลายเป็นค่าลบอนุพันธ์ของฟังก์ชันวัตถุประสงค์จะเปลี่ยนเป็น:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

ที่พลิกเข้าสู่ระบบของเป็นเพราะค่าสัมบูรณ์ของระยะเวลาโทษธรรมชาติ; เมื่อกลายเป็นเชิงลบระยะโทษจะเท่ากับและการอนุพันธ์ WRTผลลัพธ์ใน-2สิ่งนี้นำไปสู่การแก้ปัญหาซึ่งเห็นได้ชัดว่าไม่สอดคล้องกับ (เนื่องจากวิธีแก้ปัญหากำลังสองน้อยที่สุด , ซึ่งหมายถึงและλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0) มีการเพิ่มขึ้นของการลงโทษ L1 และการเพิ่มข้อผิดพลาดกำลังสอง (เนื่องจากเรากำลังเคลื่อนห่างจากวิธีกำลังสองน้อยที่สุด) เมื่อย้ายจากเป็นดังนั้นเราจึงไม่ทำเช่นนั้น ติดที่ 0β^0<0β^=0

มันควรจะเป็นอย่างสังหรณ์ใจล้างตรรกะเดียวกันกับที่มีการเปลี่ยนแปลงเข้าสู่ระบบที่เหมาะสมสำหรับการแก้ปัญหาสี่เหลี่ยมน้อยกับ<0 β^<0

ด้วยการลงโทษน้อยที่สุดอนุพันธ์จะกลายเป็น:λβ^2

2yTx+2xTxβ^+2λβ^

ซึ่งเห็นได้ชัดว่ามีทางออกแลมบ์ดา) เห็นได้ชัดว่าไม่มีการเพิ่มขึ้นของจะผลักดันสิ่งนี้ให้เป็นศูนย์ ดังนั้นการลงโทษ L2 ไม่สามารถทำหน้าที่เป็นเครื่องมือในการเลือกตัวแปรได้หากไม่มีโฆษณา hockery เล็กน้อยเช่น "ตั้งค่าพารามิเตอร์ให้เท่ากับศูนย์หากมันน้อยกว่า " β^=yTx/(xTx+λ)λϵ

เห็นได้ชัดว่าสิ่งต่าง ๆ สามารถเปลี่ยนแปลงได้เมื่อคุณย้ายไปยังโมเดลหลายตัวแปรเช่นการย้ายการประมาณหนึ่งพารามิเตอร์รอบ ๆ อาจบังคับให้อีกคนหนึ่งเปลี่ยนสัญญาณ แต่หลักการทั่วไปเหมือนกัน: ฟังก์ชันการลงโทษ L2 ไม่สามารถทำให้คุณเป็นศูนย์ได้ เพราะการเขียนแบบฮิวริสติกนัลจะมีผลกับ "ส่วน" ของนิพจน์สำหรับแต่ฟังก์ชันการลงโทษ L1 สามารถทำได้เพราะมันส่งผลให้เพิ่ม "เศษ" β^


Lasso ยังมีการเลือกคุณสมบัติในกรณีที่ไม่ใช่รุ่นเชิงเส้นเช่น NN หรือไม่?
Ilya

คำถามติดตามผลขนาดเล็ก:จะเป็นอย่างไรถ้าเป็นเวกเตอร์และเป็นสเกลาร์ที่เราสามารถปรับให้พอดีได้? λ=yTxyTxλ
Jekaterina Kokatjuhha

ฉันใช้ตัวอย่างที่ไม่แปรเปลี่ยนดังนั้นเป็นสเกลาร์ หากคุณกำลังแก้ปัญหาหลายตัวแปรจะถูกคูณด้วยเวกเตอร์ของคนที่มีความยาว = ขนาดของหรือเมทริกซ์เอกลักษณ์ขนาดที่เหมาะสมขึ้นอยู่กับปัญหาที่จะแก้ไข คุณสามารถทำงานได้โดยสังเกตเช่นว่า L2-norm ของ =และทำการทดแทนในสูตรด้านบน yTxλβzzTIz
jbowman

เป็นไปได้ไหมที่จะแสดง (ทางคณิตศาสตร์?) ว่าสัญญาณของแลมบ์ดาพลิกได้อย่างไรเนื่องจากลักษณะที่แน่นอนของฟังก์ชันการลงโทษขณะที่ฉันไม่สามารถทำตามตรรกะนี้
user1420372

@ user1420372 - เสร็จแล้ว แจ้งให้เราทราบสิ่งที่คุณคิด.
jbowman

9

สมมติว่าเรามีชุดข้อมูลที่มี y = 1 และ x = [1/10 1/10] (หนึ่งจุดข้อมูลสองคุณสมบัติ) ทางออกหนึ่งคือเลือกฟีเจอร์หนึ่งฟีเจอร์หนึ่งก็คือลดน้ำหนักทั้งสองฟีเจอร์ คือเราสามารถเลือก w = [5 5] หรือ w = [10 0]

โปรดทราบว่าสำหรับมาตรฐาน L1 นั้นมีโทษเหมือนกัน แต่น้ำหนักที่กระจายออกไปมากขึ้นจะมีค่าปรับที่ลดลงสำหรับกฎเกณฑ์ L2


8

ฉันคิดว่ามีคำตอบที่ยอดเยี่ยมอยู่แล้ว แต่เพียงเพิ่มสัญชาตญาณเกี่ยวกับการตีความทางเรขาคณิต:

"บาศทำการหดตัวเพื่อให้มี" มุม "ในข้อ จำกัด ซึ่งในสองมิติสอดคล้องกับเพชรหากผลรวมของสี่เหลี่ยม" ฮิต "หนึ่งในมุมเหล่านี้แล้วค่าสัมประสิทธิ์ที่สอดคล้องกับแกนคือหด ถึงศูนย์L1

ในฐานะที่เป็นเพิ่มขึ้นเพชรหลายมิติมีการเพิ่มจำนวนของมุมและดังนั้นจึงเป็นไปได้มากว่าค่าสัมประสิทธิ์บางส่วนจะถูกตั้งค่าเท่ากับศูนย์ ดังนั้นบ่วงบาศจะทำการหดตัวและเลือกเซตย่อย (อย่างมีประสิทธิภาพ)p

ในทางตรงกันข้ามกับการเลือกชุดย่อยสันจะดำเนินการ thresholding ที่อ่อนนุ่ม: เนื่องจากพารามิเตอร์การปรับให้เรียบนั้นมีการเปลี่ยนแปลงเส้นทางตัวอย่างของการประมาณการจะเลื่อนไปอย่างต่อเนื่องเป็นศูนย์ "

ที่มา: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

เอฟเฟกต์สามารถมองเห็นได้อย่างชัดเจนโดยที่เส้นสีเป็นเส้นทางของค่าสัมประสิทธิ์การถดถอยซึ่งลดลงเป็นศูนย์

ป้อนคำอธิบายรูปภาพที่นี่

"การถดถอยของสันลดขนาดของสัมประสิทธิ์การถดถอยทั้งหมดให้เป็นศูนย์; บ่วงนั้นมีแนวโน้มที่จะตั้งค่าสัมประสิทธิ์การถดถอยให้เป็นศูนย์และนำไปสู่การแก้ปัญหาแบบเบาบาง"

ป้อนคำอธิบายรูปภาพที่นี่

ที่มา: https://onlinecourses.science.psu.edu/stat857/node/158

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.