การปรับปรุงความน่าจะเป็นในการจำแนกประเภทในการถดถอยโลจิสติกตลอดเวลา


19

ฉันกำลังสร้างแบบจำลองการทำนายที่คาดการณ์ความน่าจะเป็นของความสำเร็จของนักเรียนเมื่อสิ้นสุดภาคการศึกษา ฉันสนใจเป็นพิเศษว่านักเรียนจะประสบความสำเร็จหรือล้มเหลวโดยที่ความสำเร็จมักจะถูกกำหนดให้เป็นการสำเร็จหลักสูตรและบรรลุคะแนน 70% หรือมากกว่านั้นจากคะแนนทั้งหมดที่เป็นไปได้

เมื่อฉันปรับใช้แบบจำลองการประมาณความน่าจะเป็นความสำเร็จจะต้องได้รับการอัปเดตตลอดเวลาเนื่องจากมีข้อมูลเพิ่มเติม - โดยทันทีหลังจากมีบางสิ่งเกิดขึ้นเช่นเมื่อนักเรียนส่งการบ้านหรือได้เกรดหนึ่ง การอัปเดตนี้ฟังดูคล้ายกับ Bayesian สำหรับฉัน แต่เมื่อฉันได้รับการฝึกอบรมด้านสถิติการศึกษาซึ่งอยู่นอกเขตความสะดวกสบายของฉัน

ฉันได้ใช้การถดถอยโลจิสติก (จริง ๆ lasso) กับชุดข้อมูลในอดีตที่มีสแนปชอตตามสัปดาห์ ข้อมูลชุดนี้มีข้อสังเกตความสัมพันธ์ตั้งแต่นักเรียนแต่ละคนมีTอีRม.Lอีnก.เสื้อชั่วโมง/7สังเกต; การสังเกตสำหรับนักเรียนหนึ่งคนนั้นมีความสัมพันธ์กัน ฉันไม่ได้เป็นแบบอย่างเฉพาะความสัมพันธ์ภายในการสังเกตรายสัปดาห์ของนักเรียนโดยเฉพาะ ฉันเชื่อว่าฉันเพียงแค่ต้องพิจารณาว่าในการตั้งค่ารองเนื่องจากข้อผิดพลาดมาตรฐานจะมีขนาดเล็กเกินไป ฉันคิดว่า - แต่ไม่แน่ใจในเรื่องนี้ - ปัญหาเดียวที่เกิดขึ้นจากการสังเกตที่สัมพันธ์กันคือฉันต้องระวังเมื่อฉันตรวจสอบความถูกต้องเพื่อให้การสังเกตแบบคลัสเตอร์เป็นส่วนหนึ่งของข้อมูลเพื่อที่ฉันจะไม่ได้รับ อัตราความผิดพลาดนอกตัวอย่างต่ำโดยไม่ได้ตั้งใจจากการคาดการณ์เกี่ยวกับบุคคลที่โมเดลได้เห็นแล้ว

ฉันใช้แพ็คเกจ glmnet ของ Rเพื่อทำ lasso ด้วย model logistic เพื่อสร้างความน่าจะเป็นที่จะประสบความสำเร็จ / ล้มเหลวและเลือกตัวทำนายสำหรับหลักสูตรใดหลักสูตรหนึ่งโดยอัตโนมัติ ฉันใช้ตัวแปรสัปดาห์เป็นปัจจัยโต้ตอบกับตัวทำนายอื่น ๆ ทั้งหมด ฉันไม่คิดว่าสิ่งนี้แตกต่างกันโดยทั่วไปจากการประเมินแบบจำลองแต่ละสัปดาห์ยกเว้นว่าจะให้ความเห็นว่าอาจมีรูปแบบทั่วไปบางอย่างที่ถือตลอดระยะเวลาที่ปรับผ่านปัจจัยการปรับความเสี่ยงต่าง ๆ ในแต่ละสัปดาห์

คำถามหลักของฉันคือ: มีวิธีที่ดีกว่าในการอัปเดตความน่าจะเป็นในการจัดหมวดหมู่ในช่วงเวลามากกว่าเพียงแค่แบ่งชุดข้อมูลออกเป็นภาพรวมรายสัปดาห์ (หรือตามช่วงเวลาอื่น ๆ ) แนะนำตัวแปรปัจจัยช่วงเวลา ใช้คุณสมบัติสะสม (คะแนนสะสมที่ได้รับวันสะสมในชั้นเรียน ฯลฯ )?

คำถามที่สองของฉันคือ: ฉันขาดสิ่งสำคัญในการสร้างแบบจำลองการทำนายที่มีการสังเกตที่สัมพันธ์กันหรือไม่

คำถามที่สามของฉันคือฉันจะพูดคุยเรื่องนี้กับการอัพเดทตามเวลาจริงได้อย่างไรเพราะฉันทำสแน็ปช็อตรายสัปดาห์ ฉันกำลังวางแผนที่จะเสียบปลั๊กตัวแปรสำหรับช่วงเวลารายสัปดาห์ปัจจุบัน แต่สิ่งนี้ดูเหมือนว่าฉันไม่เห็นด้วย

FYI, ฉันได้รับการฝึกฝนในสถิติการศึกษาประยุกต์ แต่มีพื้นหลังในสถิติทางคณิตศาสตร์เมื่อนานมาแล้ว ฉันสามารถทำสิ่งที่ซับซ้อนมากขึ้นถ้ามันสมเหตุสมผล แต่ฉันต้องการมันอธิบายในแง่ที่สามารถเข้าถึงได้ค่อนข้าง

คำตอบ:


4

เสื้อ0,เสื้อ1,...,เสื้อnเสื้อผม(Zผม,Sผม)ZผมSผม(1,0)PRโอ(Zผม=0|sผม-1)Sผม

ความน่าจะเป็นของการออกกลางคันนั้นไม่คงที่เนื่องจากคุณจะได้รับความสนุกอย่างเต็มที่ก่อนวันที่จะมาถึงโดยไม่มีการลงโทษ แต่คุณสามารถประมาณค่าเหล่านี้ได้จากข้อมูลที่ผ่านมานอกจากนี้คุณยังสามารถประเมินความน่าจะเป็นที่จะปล่อยออกมาเป็นฟังก์ชันของประสิทธิภาพการทำงานในปัจจุบัน

Sn

ZS

S

ที่พื้นฐานความน่าจะเป็นผ่านของนักเรียนเป็นเพียงอัตราผ่านของคลาสก่อนหน้า

S170S1

เป็นโบนัสคุณสามารถคำนวณช่วงของความน่าจะเป็นซึ่งควรแคบลงเมื่อคำนั้นดำเนินไป ในความเป็นจริงนักเรียนที่แข็งแกร่งจะได้คะแนน 70% ก่อนสิ้นภาคเรียนและความสำเร็จของพวกเขาจะเกิดขึ้นแน่นอน สำหรับนักเรียนที่อ่อนแอความล้มเหลวก็จะแน่นอนก่อนจบ

RE: คำถามที่ 3 คุณควรไปเวลาต่อเนื่องหรือไม่ ฉันจะไม่ทำเช่นนั้นเพราะนั่นจะทำให้หนึ่งในขอบเขตของกระบวนการสุ่มเวลาต่อเนื่องและคณิตศาสตร์ที่เกี่ยวข้องนั้นอยู่เหนือระดับการจ่ายเงินของฉัน ไม่เพียงแค่นั้นคุณไม่น่าจะได้รับผลลัพธ์ที่แตกต่างอย่างมีนัยสำคัญ

วิธีที่ดีที่สุดในการอัปเกรดโมเดลที่ฉันระบุไว้คือไม่ไปสู่เวลาต่อเนื่อง แต่เพื่อปรับความน่าจะเป็นในการเปลี่ยนแปลงตามประสบการณ์ก่อนหน้านี้ บางทีนักเรียนที่อ่อนแออาจตกหล่นกว่าแบบจำลองความเป็นอิสระอาจทำนายได้ การรวมเอา inhomegeneity จะปรับปรุงตัวแบบมากกว่าการแยกจากกันเป็นเวลาต่อเนื่อง


0

เมื่อฉันฝึกแบบจำลองการทำนายสำหรับการใช้งานประเภทที่คล้ายกันฉันแน่ใจว่าชุดข้อมูลของฉันมี Term_End_Date บางประเภทเพื่อให้ฉันสามารถหาระยะเวลาที่เหลือจนกว่าจะสิ้นสุดระยะเวลา นี่อาจเป็นตัวทำนายที่สำคัญในแบบจำลองของคุณ

สำหรับคำถามเกี่ยวกับการสังเกตที่มีความสัมพันธ์กันฉันคิดว่ามันสำคัญสำหรับพื้นที่เก็บข้อมูลที่คุณมีอยู่ ถ้าเป็นไปได้ฉันจะสุ่มเลือก 1 การสังเกตสำหรับนักเรียนแต่ละคนโดยแบ่งเป็นชั้น ๆ ใน # # ของสัปดาห์จนกระทั่งสิ้นสุดภาคเรียน ฉันจะคว้าเงื่อนไขที่เก่ากว่านี้ถ้าเป็นไปได้ หากคุณมีข้อมูลไม่เพียงพอที่จะทำเช่นนั้นคุณอาจลองใช้วิธีการสุ่มตัวอย่างใหม่เช่น bootstrap

ฉันคิดว่าสิ่งที่สำคัญที่สุดถ้าคุณมีชุดข้อมูลขนาดเล็กคือการเก็บข้อมูลให้เพียงพอเพื่อให้แน่ใจว่าแบบจำลองสุดท้ายของคุณจะเสถียร

ฉันคิดว่าเมื่อคุณทำทุกอย่างเสร็จแล้วและคุณมีสูตรการให้คะแนน แต่ใช่คุณควรจะยังคงเชื่อมต่อกับตัวแปร x ทุกสัปดาห์ที่คุณจะต้องคำนวณคะแนน - แต่ฟังดูเหมือนเป็นปัญหาในการรวบรวมข้อมูลและไม่เกี่ยวกับการใช้แบบจำลอง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.