ฉันดูหัวข้อต่างๆที่นี่ แต่ฉันไม่คิดว่าจะตอบคำถามที่แน่นอน
ฉันมีชุดข้อมูลของนักเรียนประมาณ 50,000 คนและเวลาในการออกกลางคัน ฉันจะทำการลดความเสี่ยงตามสัดส่วนที่มีค่าความแปรปรวนจำนวนมาก ฉันกำลังจะทำการถดถอยโลจิสติกเมื่อออกกลางคัน / อยู่ต่อเป้าหมายหลักคือการคาดการณ์สำหรับนักเรียนกลุ่มใหม่
โดยทั่วไปแล้วฉันไม่มีความหรูหราของข้อมูลและทำตัวแบบที่เหมาะสมกับการลงโทษ แต่คราวนี้ฉันคิดว่าการแยกชุดฝึกอบรมและชุดข้อมูลทดสอบแล้วทำการเลือกตัวแปรในชุดฝึกอบรม จากนั้นใช้ชุดข้อมูลทดสอบสำหรับการประมาณค่าพารามิเตอร์และความสามารถในการทำนาย
นี่เป็นกลยุทธ์ที่ดีใช่ไหม ถ้าไม่ดีกว่าอะไร
ยินดีต้อนรับการอ้างอิง แต่ไม่จำเป็น