LASSO เลือกกลุ่มพยากรณ์ได้อย่างไร

ฉันกำลังมองหาคำตอบที่เข้าใจง่ายว่าทำไมรุ่น GLM LASSO เลือกตัวทำนายที่เฉพาะเจาะจงออกจากกลุ่มของกลุ่มที่มีความสัมพันธ์สูงและทำไมมันถึงแตกต่างจากการเลือกคุณสมบัติชุดย่อยที่ดีที่สุด

จากรูปทรงเรขาคณิตของ LASSO ที่แสดงในรูปที่ 2 ในTibshirani 1996ฉันเชื่อว่า LASSO เลือกตัวทำนายที่มีความแปรปรวนมากขึ้น

ตอนนี้สมมติว่าฉันใช้การเลือกชุดย่อยที่ดีที่สุดกับ CV 10 เท่าเพื่อรับตัวทำนาย 2 ตัวสำหรับโมเดลการถดถอยโลจิสติกและฉันมีความรู้ก่อนที่เหมาะสมว่าตัวทำนาย 2 ตัวเหล่านี้เหมาะสมที่สุด (ในแง่สูญเสีย 0-1)

วิธีการแก้ปัญหา LASSO สนับสนุนวิธีการแก้ปัญหาที่ไม่พึงประสงค์ (5 ตัวทำนาย) ที่น้อยกว่าพร้อมกับข้อผิดพลาดในการทำนายที่มากขึ้น โดยสัญชาตญาณอะไรทำให้เกิดความแตกต่างเกิดขึ้น เป็นเพราะวิธีที่ LASSO เลือกระหว่างตัวทำนายที่สัมพันธ์กันหรือไม่?

feature-selection lasso

— Piotr Sokol
แหล่งที่มา

LASSO แตกต่างจากการเลือกชุดย่อยที่ดีที่สุดในแง่ของการลงโทษและการพึ่งพาเส้นทาง

ในการเลือกชุดย่อยที่ดีที่สุดสันนิษฐานว่า CV ถูกใช้เพื่อระบุว่าตัวทำนาย 2 ตัวให้ประสิทธิภาพที่ดีที่สุด ในช่วง CV, สัมประสิทธิ์การถดถอยเต็มขนาดโดยไม่มีการลงโทษจะถูกนำมาใช้สำหรับการประเมินจำนวนตัวแปรที่จะรวม เมื่อการตัดสินใจใช้ตัวทำนาย 2 ตัวชุดผสมทั้งหมดของตัวทำนาย 2 ตัวจะถูกนำมาเปรียบเทียบกับชุดข้อมูลแบบเต็มในแบบขนานเพื่อค้นหา 2 สำหรับตัวแบบสุดท้าย ผู้ทำนายขั้นสุดท้ายทั้งสองคนนั้นจะได้รับสัมประสิทธิ์การถดถอยเต็มขนาดโดยไม่มีการลงโทษราวกับว่าพวกเขาเป็นตัวเลือกเดียวตลอดไป

คุณสามารถนึกถึง LASSO โดยเริ่มจากการลงโทษด้วยผลรวมของขนาดของสัมประสิทธิ์การถดถอยโดยที่การลงโทษจะค่อยๆผ่อนคลายลง ผลลัพธ์คือตัวแปรป้อนทีละครั้งโดยมีการตัดสินใจในแต่ละจุดระหว่างการผ่อนคลายว่ามีค่ามากกว่าหรือไม่ที่จะเพิ่มค่าสัมประสิทธิ์ของตัวแปรที่มีอยู่แล้วในแบบจำลองหรือเพื่อเพิ่มตัวแปรอื่น แต่เมื่อคุณพูดกับแบบจำลอง 2 ตัวแปรสัมประสิทธิ์การถดถอยที่ได้รับอนุญาตจาก LASSO จะมีขนาดต่ำกว่าตัวแปรเดียวกันเหล่านั้นจะมีในการถดถอยแบบไม่มีการลงโทษมาตรฐานที่ใช้ในการเปรียบเทียบแบบจำลอง 2 ตัวแปรและ 3 ตัวแปรใน การเลือกชุดย่อยที่ดีที่สุด

นี่อาจเป็นสาเหตุที่ทำให้ตัวแปรใหม่เข้ามาใน LASSO ได้ง่ายกว่าการเลือกย่อยที่ดีที่สุด Heuristically, LASSO แลกกับค่าสัมประสิทธิ์การถดถอยที่ต่ำกว่าที่เป็นจริงต่อความไม่แน่นอนในจำนวนตัวแปรที่ควรรวม สิ่งนี้มีแนวโน้มที่จะรวมตัวแปรเพิ่มเติมในแบบจำลอง LASSO และประสิทธิภาพที่แย่ลงสำหรับ LASSO ถ้าคุณรู้แน่ว่าต้องมีเพียง 2 ตัวแปรเท่านั้น แต่ถ้าคุณรู้แล้วว่าควรรวมตัวแปรทำนายจำนวนเท่าใดในโมเดลที่ถูกต้องคุณอาจไม่ได้ใช้ LASSO

จนถึงขณะนี้ไม่มีอะไรขึ้นอยู่กับ collinearity ซึ่งนำไปสู่การอนุญาโตตุลาการประเภทต่างๆในการเลือกตัวแปรในชุดย่อยที่ดีที่สุดเมื่อเทียบกับ LASSO ในตัวอย่างนี้ชุดย่อยที่ดีที่สุดจะตรวจสอบชุดค่าผสมที่เป็นไปได้ทั้งหมดของตัวทำนาย 2 ชุดและเลือกค่าที่ดีที่สุดในชุดค่าผสมเหล่านั้น ดังนั้นที่ดีที่สุด 2 สำหรับตัวอย่างข้อมูลนั้นชนะ

LASSO ที่มีการพึ่งพาพา ธ ในการเพิ่มตัวแปรทีละตัวหมายความว่าตัวเลือกแรกของตัวแปรหนึ่งอาจมีอิทธิพลเมื่อตัวแปรอื่น ๆ มีความสัมพันธ์กับมันที่ป้อนเข้ามาในกระบวนการผ่อนคลาย นอกจากนี้ยังเป็นไปได้สำหรับตัวแปรที่จะป้อนก่อนและจากนั้นสำหรับค่าสัมประสิทธิ์ LASSO ที่จะลดลงเป็นตัวแปรที่มีความสัมพันธ์อื่น ๆ เข้ามา

ในทางปฏิบัติตัวเลือกระหว่างตัวทำนายที่สัมพันธ์กันในตัวแบบสุดท้ายด้วยวิธีใดวิธีหนึ่งนั้นขึ้นอยู่กับกลุ่มตัวอย่างสูงซึ่งสามารถตรวจสอบได้โดยทำซ้ำกระบวนการสร้างแบบจำลองเหล่านี้บนตัวอย่าง bootstrap ของข้อมูลเดียวกัน หากไม่มีตัวทำนายมากเกินไปและความสนใจหลักของคุณคือการคาดการณ์ชุดข้อมูลใหม่การถดถอยของสันเขาซึ่งมีแนวโน้มที่จะรักษาตัวทำนายทั้งหมดอาจเป็นตัวเลือกที่ดีกว่า

— EDM
แหล่งที่มา