2
ในการตั้งค่าใดที่คุณคาดว่ารุ่นที่พบโดย LARS จะแตกต่างจากรุ่นที่พบโดยการค้นหาแบบละเอียด
ข้อมูลเพิ่มเติมอีกเล็กน้อย สมมติว่า คุณทราบมาก่อนแล้วว่ามีตัวแปรให้เลือกจำนวนเท่าใดและคุณได้ตั้งค่าการลงโทษที่ซับซ้อนในขั้นตอน LARS เช่นมีตัวแปรหลายตัวที่มีค่าสัมประสิทธิ์ไม่ใช่ 0 ค่าใช้จ่ายในการคำนวณไม่ใช่ปัญหา (จำนวนตัวแปรทั้งหมดมีค่าน้อยพูด 50) ตัวแปรทั้งหมด (y, x) นั้นต่อเนื่อง แบบจำลอง LARS ในการตั้งค่าแบบใด (เช่น OLS พอดีของตัวแปรที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์ใน LARS พอดี) จะแตกต่างจากแบบจำลองที่มีค่าสัมประสิทธิ์จำนวนเท่ากัน แต่พบได้จากการค้นหาแบบละเอียด (a la regsubsets ()) แก้ไข: ฉันใช้ 50 ตัวแปรและ 250 การสังเกตด้วยสัมประสิทธิ์จริงที่ดึงมาจาก Gaussian มาตรฐานยกเว้น 10 ตัวแปรที่มีค่าสัมประสิทธิ์ 'ของจริง' เป็น 0 (และคุณลักษณะทั้งหมดที่มีความสัมพันธ์กันอย่างมาก) เห็นได้ชัดว่าการตั้งค่าเหล่านี้ไม่ดีเนื่องจากความแตกต่างระหว่างชุดตัวแปรที่เลือกสองชุดคือนาที นี่เป็นคำถามเกี่ยวกับประเภทของการกำหนดค่าข้อมูลที่ควรจำลองเพื่อให้ได้ความแตกต่างมากที่สุด