ฉันกำลังสร้างแบบจำลองการทำนายที่คาดการณ์ความน่าจะเป็นของความสำเร็จของนักเรียนเมื่อสิ้นสุดภาคการศึกษา ฉันสนใจเป็นพิเศษว่านักเรียนจะประสบความสำเร็จหรือล้มเหลวโดยที่ความสำเร็จมักจะถูกกำหนดให้เป็นการสำเร็จหลักสูตรและบรรลุคะแนน 70% หรือมากกว่านั้นจากคะแนนทั้งหมดที่เป็นไปได้
เมื่อฉันปรับใช้แบบจำลองการประมาณความน่าจะเป็นความสำเร็จจะต้องได้รับการอัปเดตตลอดเวลาเนื่องจากมีข้อมูลเพิ่มเติม - โดยทันทีหลังจากมีบางสิ่งเกิดขึ้นเช่นเมื่อนักเรียนส่งการบ้านหรือได้เกรดหนึ่ง การอัปเดตนี้ฟังดูคล้ายกับ Bayesian สำหรับฉัน แต่เมื่อฉันได้รับการฝึกอบรมด้านสถิติการศึกษาซึ่งอยู่นอกเขตความสะดวกสบายของฉัน
ฉันได้ใช้การถดถอยโลจิสติก (จริง ๆ lasso) กับชุดข้อมูลในอดีตที่มีสแนปชอตตามสัปดาห์ ข้อมูลชุดนี้มีข้อสังเกตความสัมพันธ์ตั้งแต่นักเรียนแต่ละคนมีสังเกต; การสังเกตสำหรับนักเรียนหนึ่งคนนั้นมีความสัมพันธ์กัน ฉันไม่ได้เป็นแบบอย่างเฉพาะความสัมพันธ์ภายในการสังเกตรายสัปดาห์ของนักเรียนโดยเฉพาะ ฉันเชื่อว่าฉันเพียงแค่ต้องพิจารณาว่าในการตั้งค่ารองเนื่องจากข้อผิดพลาดมาตรฐานจะมีขนาดเล็กเกินไป ฉันคิดว่า - แต่ไม่แน่ใจในเรื่องนี้ - ปัญหาเดียวที่เกิดขึ้นจากการสังเกตที่สัมพันธ์กันคือฉันต้องระวังเมื่อฉันตรวจสอบความถูกต้องเพื่อให้การสังเกตแบบคลัสเตอร์เป็นส่วนหนึ่งของข้อมูลเพื่อที่ฉันจะไม่ได้รับ อัตราความผิดพลาดนอกตัวอย่างต่ำโดยไม่ได้ตั้งใจจากการคาดการณ์เกี่ยวกับบุคคลที่โมเดลได้เห็นแล้ว
ฉันใช้แพ็คเกจ glmnet ของ Rเพื่อทำ lasso ด้วย model logistic เพื่อสร้างความน่าจะเป็นที่จะประสบความสำเร็จ / ล้มเหลวและเลือกตัวทำนายสำหรับหลักสูตรใดหลักสูตรหนึ่งโดยอัตโนมัติ ฉันใช้ตัวแปรสัปดาห์เป็นปัจจัยโต้ตอบกับตัวทำนายอื่น ๆ ทั้งหมด ฉันไม่คิดว่าสิ่งนี้แตกต่างกันโดยทั่วไปจากการประเมินแบบจำลองแต่ละสัปดาห์ยกเว้นว่าจะให้ความเห็นว่าอาจมีรูปแบบทั่วไปบางอย่างที่ถือตลอดระยะเวลาที่ปรับผ่านปัจจัยการปรับความเสี่ยงต่าง ๆ ในแต่ละสัปดาห์
คำถามหลักของฉันคือ: มีวิธีที่ดีกว่าในการอัปเดตความน่าจะเป็นในการจัดหมวดหมู่ในช่วงเวลามากกว่าเพียงแค่แบ่งชุดข้อมูลออกเป็นภาพรวมรายสัปดาห์ (หรือตามช่วงเวลาอื่น ๆ ) แนะนำตัวแปรปัจจัยช่วงเวลา ใช้คุณสมบัติสะสม (คะแนนสะสมที่ได้รับวันสะสมในชั้นเรียน ฯลฯ )?
คำถามที่สองของฉันคือ: ฉันขาดสิ่งสำคัญในการสร้างแบบจำลองการทำนายที่มีการสังเกตที่สัมพันธ์กันหรือไม่
คำถามที่สามของฉันคือฉันจะพูดคุยเรื่องนี้กับการอัพเดทตามเวลาจริงได้อย่างไรเพราะฉันทำสแน็ปช็อตรายสัปดาห์ ฉันกำลังวางแผนที่จะเสียบปลั๊กตัวแปรสำหรับช่วงเวลารายสัปดาห์ปัจจุบัน แต่สิ่งนี้ดูเหมือนว่าฉันไม่เห็นด้วย
FYI, ฉันได้รับการฝึกฝนในสถิติการศึกษาประยุกต์ แต่มีพื้นหลังในสถิติทางคณิตศาสตร์เมื่อนานมาแล้ว ฉันสามารถทำสิ่งที่ซับซ้อนมากขึ้นถ้ามันสมเหตุสมผล แต่ฉันต้องการมันอธิบายในแง่ที่สามารถเข้าถึงได้ค่อนข้าง