บทนำ:
ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง
ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี
หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน)
ปัญหา:
เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร
แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง)
เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน R กำลังสอง เช่นกันจำนวนผู้ทำนายที่ไม่เป็นศูนย์จะแตกต่างกันไปตามค่าสัมประสิทธิ์
ฉันจะได้รับการประเมินความสำคัญของตัวพยากรณ์และการประเมินเสถียรภาพของแบบจำลองขั้นสุดท้ายได้อย่างมั่นคงมากขึ้นได้อย่างไร
ฉันสามารถรันโพรซีเดอร์ของฉันซ้ำ ๆ เพื่อสร้างแบบจำลองจำนวนมากแล้วค่าสัมประสิทธิ์การถดถอยโดยเฉลี่ยได้หรือไม่? หรือฉันควรใช้จำนวนการเกิดขึ้นของตัวทำนายในแบบจำลองเป็นคะแนนความสำคัญ
ขณะนี้ฉันได้รับตัวทำนายที่ไม่เป็นศูนย์ประมาณ 40-50 ฉันควรลงโทษผู้ทำนายจำนวนมากขึ้นเพื่อความมั่นคงที่ดีขึ้นหรือไม่