ฉันกำลังพยายามเลือกรูปแบบตัวทำนายผลผู้สมัครบางคนที่ใช้ LASSO ด้วยผลลัพธ์ที่ต่อเนื่อง เป้าหมายคือการเลือกแบบจำลองที่ดีที่สุดด้วยประสิทธิภาพการทำนายที่ดีที่สุดซึ่งโดยทั่วไปสามารถทำได้โดยการตรวจสอบความถูกต้องของ K-fold cross หลังจากได้รับเส้นทางการแก้ปัญหาของพารามิเตอร์การปรับแต่งจาก LASSO ปัญหาที่นี่คือข้อมูลมาจากการออกแบบการสำรวจหลายขั้นตอนที่ซับซ้อน (NHANES) ด้วยการสุ่มตัวอย่างแบบคลัสเตอร์และการแบ่งชั้น ส่วนการประเมินไม่ยากเนื่องจากglmnet
ใน R สามารถรับน้ำหนักตัวอย่างได้ แต่ส่วนการตรวจสอบความถูกต้องไขว้นั้นมีความชัดเจนน้อยกว่าสำหรับฉันเนื่องจากการสังเกตการณ์ตอนนี้ไม่ได้เป็นอีกต่อไปแล้วและขั้นตอนการบัญชีสำหรับการสุ่มตัวอย่างน้ำหนักแทนประชากรที่ จำกัด ได้อย่างไร?
ดังนั้นคำถามของฉันคือ:
1) วิธีการดำเนินการตรวจสอบความถูกต้องด้วย K-fold ด้วยข้อมูลการสำรวจที่ซับซ้อนเพื่อเลือกพารามิเตอร์การปรับแต่งที่ดีที่สุดได้อย่างไร? โดยเฉพาะอย่างยิ่งวิธีแบ่งพาร์ติชันข้อมูลตัวอย่างในชุดการฝึกอบรมและการตรวจสอบความถูกต้องอย่างเหมาะสม และวิธีการกำหนดประมาณการของข้อผิดพลาดการทำนาย?
2) มีวิธีอื่นในการเลือกพารามิเตอร์การปรับที่ดีที่สุดหรือไม่?