ในการตั้งค่าใดที่คุณคาดว่ารุ่นที่พบโดย LARS จะแตกต่างจากรุ่นที่พบโดยการค้นหาแบบละเอียด


9

ข้อมูลเพิ่มเติมอีกเล็กน้อย สมมติว่า

  1. คุณทราบมาก่อนแล้วว่ามีตัวแปรให้เลือกจำนวนเท่าใดและคุณได้ตั้งค่าการลงโทษที่ซับซ้อนในขั้นตอน LARS เช่นมีตัวแปรหลายตัวที่มีค่าสัมประสิทธิ์ไม่ใช่ 0
  2. ค่าใช้จ่ายในการคำนวณไม่ใช่ปัญหา (จำนวนตัวแปรทั้งหมดมีค่าน้อยพูด 50)
  3. ตัวแปรทั้งหมด (y, x) นั้นต่อเนื่อง

แบบจำลอง LARS ในการตั้งค่าแบบใด (เช่น OLS พอดีของตัวแปรที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์ใน LARS พอดี) จะแตกต่างจากแบบจำลองที่มีค่าสัมประสิทธิ์จำนวนเท่ากัน แต่พบได้จากการค้นหาแบบละเอียด (a la regsubsets ())

แก้ไข: ฉันใช้ 50 ตัวแปรและ 250 การสังเกตด้วยสัมประสิทธิ์จริงที่ดึงมาจาก Gaussian มาตรฐานยกเว้น 10 ตัวแปรที่มีค่าสัมประสิทธิ์ 'ของจริง' เป็น 0 (และคุณลักษณะทั้งหมดที่มีความสัมพันธ์กันอย่างมาก) เห็นได้ชัดว่าการตั้งค่าเหล่านี้ไม่ดีเนื่องจากความแตกต่างระหว่างชุดตัวแปรที่เลือกสองชุดคือนาที นี่เป็นคำถามเกี่ยวกับประเภทของการกำหนดค่าข้อมูลที่ควรจำลองเพื่อให้ได้ความแตกต่างมากที่สุด

คำตอบ:


1

นี่คือคำอธิบายของอัลกอริทึม LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.htmlมันไม่สนใจความสัมพันธ์ระหว่างรีจีสเตอร์ดังนั้นฉันจะกล้าเดาว่ามันอาจจะพลาด ความพอดีในกรณีที่มีความหลากหลายของสี


นั่นคือสิ่งที่กระตุ้นคำถามของฉัน ฉันได้จำลองการตั้งค่าด้วย 50 ตัวแปรซึ่งค่าที่ใหญ่ที่สุดของ vif เกิน 30 และฉันยังเห็นความแตกต่างน้อยมาก (เช่นในแง่ของ R ^ 2 ของรุ่นที่เลือก) ระหว่างสองวิธี
user603

1
ฉันพบคำตอบที่แตกต่างกับ stepAIC และ lars และคิดว่าปัญหาของฉันคือการรักษาด้วยกลุ่ม LASSO - ไม่เกี่ยวกับ VIF ของเมทริกซ์ทั้งหมด แต่เป็นกลุ่มของตัวแปรที่มีความสัมพันธ์กัน
Alex

การซ่อน ... คุณจะสร้างข้อมูลดังกล่าวได้อย่างไร (เช่นกับกลุ่มของตัวแปรที่สัมพันธ์กัน)
603

สแต็คกลุ่มอิสระจำนวนมากที่มีความสัมพันธ์กันอยู่ภายใน ฉันมีคำถามเดียวกันมากมายถามเกี่ยวกับแบรนด์จำนวนหนึ่ง - ผู้คนมักจะชอบแบรนด์ที่พวกเขาเลือกและไม่ชอบคนอื่น
อเล็กซ์

3

ยิ่งคุณมีฟีเจอร์มากขึ้นเท่าไรคุณก็ยิ่งมีความเหมาะสมมากขึ้นในการค้นหาด้วยวิธีที่เหมาะสมกว่า LARS ระยะเวลาการลงโทษที่ใช้ใน LARS กำหนดโครงสร้างที่ซ้อนกันของแบบจำลองที่ซับซ้อนมากขึ้นซึ่งจัดทำดัชนีโดยพารามิเตอร์การทำให้เป็นมาตรฐานเดียวดังนั้น "องศาอิสระ" ของการเลือกคุณลักษณะด้วย LARS ค่อนข้างต่ำ สำหรับการค้นหาที่ดีที่สุดมีหนึ่งระดับ (ไบนารี) อิสระต่อคุณลักษณะซึ่งหมายความว่าการค้นหาที่ดีกว่าสามารถใช้ประโยชน์จากความแปรปรวนแบบสุ่มในเกณฑ์การเลือกคุณลักษณะเนื่องจากการสุ่มตัวอย่างข้อมูล เป็นผลให้รูปแบบการค้นหาที่ไม่น่าเชื่อน่าจะเหมาะสมกับเกณฑ์การเลือกคุณลักษณะอย่างรุนแรงเนื่องจาก "คลาสสมมติฐาน" มีขนาดใหญ่กว่า


คำตอบของคุณดูเหมือนจะไม่เกี่ยวข้องกับคำถามของฉัน เพื่อให้ชัดเจน: ฉันสนใจที่จะสร้างสถานการณ์ที่เซตย่อยของตัวแปรที่เลือกว่าแอ็คทีฟโดย LARS จะแตกต่างจากที่เลือกโดยการค้นหาที่ละเอียดถี่ถ้วนโดยสิ่งนี้วัดได้โดยพูดความแตกต่างใน R ^ 2 ระหว่างโมเดล LARS และรูปแบบการค้นหาหมดจดมีหมายเลขเดียวกันของตัวแปรที่ใช้งาน คุณนึกถึงกรณีศัตรูที่ความแตกต่างนี้จะมีขนาดใหญ่หรือไม่? คุณสามารถเติมคำตอบในคำเหล่านี้ได้ไหม
user603

3
คำตอบของฉันเกี่ยวข้องโดยตรงกับคำถามของคุณ ระดับของการสวมใส่ที่มากเกินไปไม่ได้ถูกควบคุมโดยจำนวนคุณสมบัติเท่านั้น แต่จะพิจารณาจากค่าน้ำหนัก ดังนั้นจึงเป็นไปได้ที่จะกระชับโดยไม่ต้องใช้คุณสมบัติเพิ่มเติม LARS ทำการลงโทษกับขนาดของน้ำหนักดังนั้นมันจึงไม่เลือกคุณสมบัติที่จะลดการสูญเสียกำลังสองที่ค่าใช้จ่ายของน้ำหนักที่มีขนาดใหญ่ซึ่งเป็นเหตุผลว่าทำไมจึงมีความเสี่ยงน้อยกว่าที่จะปรับให้กระชับ วิธีการค้นหาโดยทั่วไปนั้นเป็นสูตรสำหรับการปรับให้กระชับมากเกินไปดังนั้นคุณจะได้รับการแก้ปัญหาที่แตกต่างกันมากในสถานการณ์ที่มีแนวโน้มที่จะเกิดการกระชับเกิน
Dikran Marsupial

ตกลงฉันเข้าใจประเด็น: มันมาจากสิ่งที่ฉันคัดสรรมาจากคำถามเดิมของฉัน (และหวังว่าจะชัดเจนขึ้นตอนนี้) ฉันกำลังเปรียบเทียบแอปเปิลกับแอปเปิ้ลที่นี่จริง ๆ (เช่นรุ่นที่เลือก) หรือกล่าวอีกนัยหนึ่ง OLS (R ^ 2 ของ) พอดีกับตัวแปรที่เลือกโดย LARS และ (R ^ 2 ของ) OLS พอดีกับสิ่งเหล่านั้น ตัวแปรที่เลือกโดยการค้นหาแบบละเอียด ฉันไม่ได้ใช้สัมประสิทธิ์ LARS โดยตรง ....
603

3
มันไม่ใช่มุมฉากแบบจำลองหนึ่งไม่น่าจะดีไปกว่าอีกแบบโดยไม่แตกต่างกัน ในสถานการณ์ที่มีความเหมาะสมมากเกินไปรูปแบบการค้นหาที่ใช้งานได้น่าจะไม่เสถียรกล่าวคือถ้าคุณรวบรวมตัวอย่าง 500 ตัวอย่างที่แตกต่างกันคุณมีแนวโน้มที่จะได้รับชุดคุณลักษณะที่แตกต่างกัน LARS ในทางกลับกันมีแนวโน้มที่จะมีเสถียรภาพมากขึ้น คุณสมบัติ 50 ตัวอย่างและ 500 ตัวอย่างเป็นผลให้มีการจัดเก็บข้อมูลมากเกินไปขึ้นอยู่กับลักษณะของชุดข้อมูล แต่เป็นไปได้อย่างแน่นอน การค้นหาแบบละเอียดนั้นมีแนวโน้มที่จะเลือกคุณสมบัติที่อธิบายถึงความแปรปรวนที่แปลกประหลาดกับตัวอย่างนี้; LARS น้อยกว่า
Dikran Marsupial

2
มันอาจช่วยได้ถ้าคุณสามารถอธิบายได้ว่าทำไมคุณถึงอยากทำเช่นนั้น ฉันสงสัยว่าสิ่งที่คุณต้องดูคือขนาดของน้ำหนักของโมเดลที่แท้จริงรวมถึงการกระจายของข้อมูล โมเดลการถดถอยแบบปรับ (LASSO, LARS, Elaris net, ridge regression) มีการกระจายน้ำหนักก่อนหน้านี้ที่คาดไว้ดังนั้นหากคุณมีชุดข้อมูลที่ไม่ถูกต้องอาจเป็นจุดเริ่มต้นที่ดี
Dikran Marsupial
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.