เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO


13

ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว

สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีnnnพี

สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO

คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง:

  1. หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า

  2. LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ

    เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน NLP บางอย่างดังนั้นเราจึงวางฟีเจอร์ไร้ประโยชน์บางอย่างลงก่อนเพื่อลดต้นทุนการคำนวณ อย่างไรก็ตามสำหรับ LASSO เราสามารถรู้ได้เฉพาะผลการเลือกคุณสมบัติ (เวกเตอร์แบบกระจาย) หลังจากที่เราป้อนข้อมูลทั้งหมดในแบบจำลองของเราดังนั้นเราจึงไม่ได้รับประโยชน์จาก LASSO ในแง่ของการลดต้นทุนการคำนวณ เราสามารถคาดการณ์ได้เร็วขึ้นเพียงเล็กน้อยในขณะนี้ขณะนี้เราป้อนฟีเจอร์ย่อย (พูด 500 จาก 1 ล้านรายการ) ลงในโมเดลของเราเพื่อสร้างผลลัพธ์ที่คาดการณ์ไว้

    ถ้า LASSO นั้นต้องการความสามารถในการพูดคุยทั่วไปเราก็สามารถบรรลุเป้าหมายเดียวกันได้โดยใช้การถดถอยแบบสัน (หรือการทำให้เป็นมาตรฐานแบบอื่น) ทำไมเราถึงต้องการ LASSO (หรือมุ้งยืด) อีกครั้ง? ทำไมเราถึงติดสันเขาถดถอยไม่ได้?

ใครบางคนช่วยส่องแสงไฟนี้ให้หน่อยได้ไหม? ขอบคุณ!


3
สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขา ฉันไม่เห็นด้วย. ฉันไม่คิดว่าโดยทั่วไป LASSO จะแย่กว่า (หรือดีกว่า) กว่าสันในแง่ของการทำนาย ตามที่ @ โจนากล่าวไว้ในคำตอบของเขา / เธอคุณอาจเผชิญกับสถานการณ์ที่คุณลักษณะบางอย่างไม่ได้เป็นของโมเดลจริงๆแล้ว LASSO จะมีประสิทธิภาพมากกว่าในการไล่พวกมันออก อย่างไรก็ตามด้วยคุณสมบัติทั้งหมดจะรวมอยู่ด้วยและสิ่งที่ไม่เกี่ยวข้องจะปนเปื้อนการคาดการณ์ นั่นเป็นเหตุผลที่เราต้องสุทธิยืดหยุ่น - เพื่อให้ข้อมูลตัดสินใจการผสมผสานที่เหมาะสมของและL_2L1L2
Richard Hardy

3
ฉันยังสงสัยว่าหนังสือเล่มไหนพูดถึงสิ่งต่าง ๆ เช่นสำหรับการถดถอยบนสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป (ตรงกันข้ามกับ LASSO ฉันเข้าใจไม่ต่างจากการถดถอยแบบไม่ จำกัด ) บางทีทั่วไปไม่ทั่วไปว่าในการใช้งานของพวกเขา นอกจากนี้วิธีการทำให้เป็นมาตรฐานของการแปลความหมายควรให้ผลเป็นเท่าไร? (นอกจากนี้ Shmueli "เพื่ออธิบายหรือทำนาย" (2010) เป็นผลงานที่ดีแม้ว่าจะไม่เกี่ยวข้องโดยตรง)
Richard Hardy

1
@RichardHardy คุณพูดถูก ตอนนี้ฉันอ่านตำราเรียนอย่างละเอียดมากขึ้นและพบว่า " ทั้งการถดถอยของสันเขาและบ่วงบาศจะไม่มีอำนาจเหนือกว่าคนอื่น " ในหน้า 223, บทนำสู่การเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน R , Gareth James et al
Brad Li

@RichardHardy แต่เดิมฉันพบข้อโต้แย้งที่คล้ายกันสำหรับ L1-regularization บน LIBLINEAR คำถามที่พบบ่อย: csie.ntu.edu.tw/~cjlin/liblinear/ …
Brad Li

การวิ่งของสันเขาและ Lasso ในตัวอย่างจริงหรือสองอย่างจะอธิบายความแตกต่างได้หรือไม่? (แต่พวกเขาไม่ง่ายที่จะเปรียบเทียบ - พล็อตพอดีกับ sparsity?)
ปฏิเสธ

คำตอบ:


16
  1. ถ้าคุณสั่งซื้อ 1,000,000 สันหดลดขนาด แต่ไม่ใช่ศูนย์คุณสมบัติที่คุณจะต้องทำให้ชนิดของการตัดสินใจบางอย่างที่คุณจะมองไปที่nพยากรณ์ที่ดีที่สุด แต่สิ่งที่เป็นn ? LASSO แก้ปัญหานี้ด้วยวิธีที่ถูกต้องตามหลักการเพราะสำหรับทุกขั้นตอนบนเส้นทาง (และบ่อยครั้งที่คุณต้องตัดสินใจผ่านจุดเดียวเช่นการตรวจสอบข้าม) มีค่าสัมประสิทธิ์mเท่านั้นที่ไม่ใช่ศูนย์

  2. บ่อยครั้งที่คุณจะฝึกอบรมโมเดลเกี่ยวกับข้อมูลบางส่วนจากนั้นนำไปใช้กับข้อมูลบางอย่างที่ยังไม่ได้รวบรวม ตัวอย่างเช่นคุณสามารถใส่โมเดลของคุณในอีเมล 50.000.000 และใช้โมเดลนั้นกับอีเมลใหม่ทุกฉบับ จริงอยู่คุณจะใส่ลงในฟีเจอร์เต็มรูปแบบที่ตั้งไว้สำหรับเมล 50.000.000 แรก แต่สำหรับอีเมลต่อไปนี้ทุกครั้งคุณจะจัดการกับ sparser และเร็วกว่าและมีหน่วยความจำที่มีประสิทธิภาพมากขึ้น นอกจากนี้คุณยังไม่จำเป็นต้องรวบรวมข้อมูลสำหรับคุณสมบัติที่ถูกทิ้งซึ่งอาจเป็นประโยชน์อย่างมากหากคุณลักษณะมีราคาแพงในการแยกเช่นผ่านทางจีโนไทป์

อีกมุมมองหนึ่งเกี่ยวกับปัญหา L1 / L2 ที่เปิดเผยโดยแอนดรูเจลแมนคือคุณมักมีสัญชาตญาณว่าปัญหาของคุณอาจเป็นอย่างไร ในบางสถานการณ์เป็นไปได้ว่าความจริงนั้นกระจัดกระจายอย่างแท้จริง บางทีคุณอาจวัดยีนหลายล้านตัวได้ แต่เป็นไปได้ว่ามีเพียง 30,000 คนเท่านั้นที่ตรวจสอบการเผาผลาญโดปามีน ในสถานการณ์เช่นนี้ L1 สามารถแก้ปัญหาได้ดีกว่า
ในกรณีอื่นความจริงอาจหนาแน่น ตัวอย่างเช่นในด้านจิตวิทยา "ทุกอย่างสัมพันธ์ (กับระดับหนึ่ง) กับทุกอย่าง" (Paul Meehl) การตั้งค่าของแอปเปิ้ลกับส้มอาจจะมีความสัมพันธ์กับโอนเอียงทางการเมืองอย่างใด - และแม้จะมีไอคิว การทำให้เป็นบรรทัดฐานอาจยังคงสมเหตุสมผลอยู่ที่นี่ แต่ผลกระทบที่เป็นศูนย์จริงควรจะหายากดังนั้น L2 อาจเหมาะสมกว่า


Y=-2x1+3x2-x3
x2>x1>x3[0,1]
Brad Li

แน่นอนคุณสามารถจัดเรียงพวกเขาได้ แต่คุณยังต้องตัดสินใจเรียงลำดับตามที่คุณเห็น
jona

6
อีกวิธีหนึ่งในวลีนี้คือ: สันอาจช่วยในการเลือกคุณสมบัติ LASSO ทำการเลือกคุณลักษณะ
jona

1
@Brad นอกเหนือจากคำตอบที่ยอดเยี่ยมโดย jona (+1) โปรดทราบว่าการตัดสินความสำคัญของคุณลักษณะโดยค่าสัมประสิทธิ์การถดถอยมาตรฐานเป็นวิธีหนึ่งที่เป็นไปได้ แต่ไม่ใช่วิธีเดียวเท่านั้น มีมาตรการที่แตกต่างกันของ "ความสำคัญของคุณลักษณะ" และพวกเขาสามารถให้ผลลัพธ์ที่ขัดแย้งกันได้อย่างง่ายดาย ดูหัวข้อนี้สำหรับการอภิปรายยาว: stats.stackexchange.com/questions/64010
อะมีบา

1

ความสามารถในการตีความลดลงหากเป้าหมายนั้นขึ้นอยู่กับคุณสมบัติจำนวนมาก มันจะเพิ่มขึ้นหากเราสามารถลดจำนวนฟีเจอร์และรักษาความแม่นยำ การทำให้เป็นมาตรฐานของ Ridge ไม่มีความสามารถในการลดจำนวนฟีเจอร์ แต่ Lasso มีความสามารถ สิ่งนี้เกิดขึ้นได้อย่างไรอธิบายได้ด้วยภาพในลิงค์ต่อไปนี้:

คลิกบทความเกี่ยวกับวิทยาศาสตร์ข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.