เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO

ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว

สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขา $p$ $n$ $n$ $n$ $p$

สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO

คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง:

หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า
LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ

เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน NLP บางอย่างดังนั้นเราจึงวางฟีเจอร์ไร้ประโยชน์บางอย่างลงก่อนเพื่อลดต้นทุนการคำนวณ อย่างไรก็ตามสำหรับ LASSO เราสามารถรู้ได้เฉพาะผลการเลือกคุณสมบัติ (เวกเตอร์แบบกระจาย) หลังจากที่เราป้อนข้อมูลทั้งหมดในแบบจำลองของเราดังนั้นเราจึงไม่ได้รับประโยชน์จาก LASSO ในแง่ของการลดต้นทุนการคำนวณ เราสามารถคาดการณ์ได้เร็วขึ้นเพียงเล็กน้อยในขณะนี้ขณะนี้เราป้อนฟีเจอร์ย่อย (พูด 500 จาก 1 ล้านรายการ) ลงในโมเดลของเราเพื่อสร้างผลลัพธ์ที่คาดการณ์ไว้

ถ้า LASSO นั้นต้องการความสามารถในการพูดคุยทั่วไปเราก็สามารถบรรลุเป้าหมายเดียวกันได้โดยใช้การถดถอยแบบสัน (หรือการทำให้เป็นมาตรฐานแบบอื่น) ทำไมเราถึงต้องการ LASSO (หรือมุ้งยืด) อีกครั้ง? ทำไมเราถึงติดสันเขาถดถอยไม่ได้?

ใครบางคนช่วยส่องแสงไฟนี้ให้หน่อยได้ไหม? ขอบคุณ!

— แบรดลี่
แหล่งที่มา

สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขา ฉันไม่เห็นด้วย. ฉันไม่คิดว่าโดยทั่วไป LASSO จะแย่กว่า (หรือดีกว่า) กว่าสันในแง่ของการทำนาย ตามที่ @ โจนากล่าวไว้ในคำตอบของเขา / เธอคุณอาจเผชิญกับสถานการณ์ที่คุณลักษณะบางอย่างไม่ได้เป็นของโมเดลจริงๆแล้ว LASSO จะมีประสิทธิภาพมากกว่าในการไล่พวกมันออก อย่างไรก็ตามด้วยคุณสมบัติทั้งหมดจะรวมอยู่ด้วยและสิ่งที่ไม่เกี่ยวข้องจะปนเปื้อนการคาดการณ์ นั่นเป็นเหตุผลที่เราต้องสุทธิยืดหยุ่น - เพื่อให้ข้อมูลตัดสินใจการผสมผสานที่เหมาะสมของและL_2

L_{1}

$L_1$

L_{2}

$L_2$

— Richard Hardy

ฉันยังสงสัยว่าหนังสือเล่มไหนพูดถึงสิ่งต่าง ๆ เช่นสำหรับการถดถอยบนสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป (ตรงกันข้ามกับ LASSO ฉันเข้าใจไม่ต่างจากการถดถอยแบบไม่ จำกัด ) บางทีทั่วไปไม่ทั่วไปว่าในการใช้งานของพวกเขา นอกจากนี้วิธีการทำให้เป็นมาตรฐานของการแปลความหมายควรให้ผลเป็นเท่าไร? (นอกจากนี้ Shmueli "เพื่ออธิบายหรือทำนาย" (2010) เป็นผลงานที่ดีแม้ว่าจะไม่เกี่ยวข้องโดยตรง)

— Richard Hardy

@RichardHardy คุณพูดถูก ตอนนี้ฉันอ่านตำราเรียนอย่างละเอียดมากขึ้นและพบว่า " ทั้งการถดถอยของสันเขาและบ่วงบาศจะไม่มีอำนาจเหนือกว่าคนอื่น " ในหน้า 223, บทนำสู่การเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน R , Gareth James et al

— Brad Li

@RichardHardy แต่เดิมฉันพบข้อโต้แย้งที่คล้ายกันสำหรับ L1-regularization บน LIBLINEAR คำถามที่พบบ่อย: csie.ntu.edu.tw/~cjlin/liblinear/ …

— Brad Li

การวิ่งของสันเขาและ Lasso ในตัวอย่างจริงหรือสองอย่างจะอธิบายความแตกต่างได้หรือไม่? (แต่พวกเขาไม่ง่ายที่จะเปรียบเทียบ - พล็อตพอดีกับ sparsity?)

— ปฏิเสธ

คำตอบ:

ถ้าคุณสั่งซื้อ 1,000,000 สันหดลดขนาด แต่ไม่ใช่ศูนย์คุณสมบัติที่คุณจะต้องทำให้ชนิดของการตัดสินใจบางอย่างที่คุณจะมองไปที่nพยากรณ์ที่ดีที่สุด แต่สิ่งที่เป็นn ? LASSO แก้ปัญหานี้ด้วยวิธีที่ถูกต้องตามหลักการเพราะสำหรับทุกขั้นตอนบนเส้นทาง (และบ่อยครั้งที่คุณต้องตัดสินใจผ่านจุดเดียวเช่นการตรวจสอบข้าม) มีค่าสัมประสิทธิ์mเท่านั้นที่ไม่ใช่ศูนย์
บ่อยครั้งที่คุณจะฝึกอบรมโมเดลเกี่ยวกับข้อมูลบางส่วนจากนั้นนำไปใช้กับข้อมูลบางอย่างที่ยังไม่ได้รวบรวม ตัวอย่างเช่นคุณสามารถใส่โมเดลของคุณในอีเมล 50.000.000 และใช้โมเดลนั้นกับอีเมลใหม่ทุกฉบับ จริงอยู่คุณจะใส่ลงในฟีเจอร์เต็มรูปแบบที่ตั้งไว้สำหรับเมล 50.000.000 แรก แต่สำหรับอีเมลต่อไปนี้ทุกครั้งคุณจะจัดการกับ sparser และเร็วกว่าและมีหน่วยความจำที่มีประสิทธิภาพมากขึ้น นอกจากนี้คุณยังไม่จำเป็นต้องรวบรวมข้อมูลสำหรับคุณสมบัติที่ถูกทิ้งซึ่งอาจเป็นประโยชน์อย่างมากหากคุณลักษณะมีราคาแพงในการแยกเช่นผ่านทางจีโนไทป์

อีกมุมมองหนึ่งเกี่ยวกับปัญหา L1 / L2 ที่เปิดเผยโดยแอนดรูเจลแมนคือคุณมักมีสัญชาตญาณว่าปัญหาของคุณอาจเป็นอย่างไร ในบางสถานการณ์เป็นไปได้ว่าความจริงนั้นกระจัดกระจายอย่างแท้จริง บางทีคุณอาจวัดยีนหลายล้านตัวได้ แต่เป็นไปได้ว่ามีเพียง 30,000 คนเท่านั้นที่ตรวจสอบการเผาผลาญโดปามีน ในสถานการณ์เช่นนี้ L1 สามารถแก้ปัญหาได้ดีกว่า
ในกรณีอื่นความจริงอาจหนาแน่น ตัวอย่างเช่นในด้านจิตวิทยา "ทุกอย่างสัมพันธ์ (กับระดับหนึ่ง) กับทุกอย่าง" (Paul Meehl) การตั้งค่าของแอปเปิ้ลกับส้มอาจจะมีความสัมพันธ์กับโอนเอียงทางการเมืองอย่างใด - และแม้จะมีไอคิว การทำให้เป็นบรรทัดฐานอาจยังคงสมเหตุสมผลอยู่ที่นี่ แต่ผลกระทบที่เป็นศูนย์จริงควรจะหายากดังนั้น L2 อาจเหมาะสมกว่า

— Jona
แหล่งที่มา

Y = - 2 x_{1} + 3 x_{2} - x_{3}

$y = -2x_{1} + 3x_{2}-x_{3}$

x_{2} > x_{1} > x_{3}

$x_{2} > x_{1} > x_{3}$

[0, 1]

$[0, 1]$

— Brad Li

แน่นอนคุณสามารถจัดเรียงพวกเขาได้ แต่คุณยังต้องตัดสินใจเรียงลำดับตามที่คุณเห็น

— jona

อีกวิธีหนึ่งในวลีนี้คือ: สันอาจช่วยในการเลือกคุณสมบัติ LASSO ทำการเลือกคุณลักษณะ

— jona

@Brad นอกเหนือจากคำตอบที่ยอดเยี่ยมโดย jona (+1) โปรดทราบว่าการตัดสินความสำคัญของคุณลักษณะโดยค่าสัมประสิทธิ์การถดถอยมาตรฐานเป็นวิธีหนึ่งที่เป็นไปได้ แต่ไม่ใช่วิธีเดียวเท่านั้น มีมาตรการที่แตกต่างกันของ "ความสำคัญของคุณลักษณะ" และพวกเขาสามารถให้ผลลัพธ์ที่ขัดแย้งกันได้อย่างง่ายดาย ดูหัวข้อนี้สำหรับการอภิปรายยาว: stats.stackexchange.com/questions/64010

— อะมีบา

ความสามารถในการตีความลดลงหากเป้าหมายนั้นขึ้นอยู่กับคุณสมบัติจำนวนมาก มันจะเพิ่มขึ้นหากเราสามารถลดจำนวนฟีเจอร์และรักษาความแม่นยำ การทำให้เป็นมาตรฐานของ Ridge ไม่มีความสามารถในการลดจำนวนฟีเจอร์ แต่ Lasso มีความสามารถ สิ่งนี้เกิดขึ้นได้อย่างไรอธิบายได้ด้วยภาพในลิงค์ต่อไปนี้:

คลิกบทความเกี่ยวกับวิทยาศาสตร์ข้อมูล

— solver149
แหล่งที่มา