2
เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO
ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …