ฉันมีแบบจำลองการถดถอยโลจิสติกที่ผ่านการฝึกอบรมซึ่งฉันใช้กับชุดข้อมูลการทดสอบ ตัวแปรที่ขึ้นต่อกันคือไบนารี (บูลีน) สำหรับแต่ละตัวอย่างในชุดข้อมูลการทดสอบฉันใช้แบบจำลองการถดถอยโลจิสติกเพื่อสร้าง% ความน่าจะเป็นที่ตัวแปรตามจะเป็นจริง จากนั้นฉันบันทึกว่าค่า acutal เป็นจริงหรือเท็จ ฉันพยายามคำนวณรูปหรือ Adjustedเหมือนในตัวแบบถดถอยเชิงเส้น
นี่ทำให้ฉันบันทึกสำหรับตัวอย่างแต่ละตัวอย่างในชุดการทดสอบที่ชอบ:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
ฉันสงสัยว่าจะทดสอบความแม่นยำของแบบจำลองได้อย่างไร ความพยายามครั้งแรกของฉันคือการใช้ตารางฉุกเฉินและพูดว่า "ถ้าprob_value_is_true
> 0.80 เดาว่ามูลค่าจริงเป็นจริง" จากนั้นวัดอัตราส่วนที่ถูกต้องต่อการจำแนกประเภทที่ไม่ถูกต้อง แต่ฉันไม่ชอบเพราะมันให้ความรู้สึกมากกว่าฉันแค่ประเมิน 0.80 เป็นขอบเขตไม่ใช่ความแม่นยำของโมเดลโดยรวมและในทุกprob_value_is_true
ค่า
จากนั้นฉันพยายามดูแต่ละค่า prob_value_is_true โดยสิ้นเชิงเป็นตัวอย่างดูตัวอย่างทั้งหมดที่prob_value_is_true
= 0.34 และการวัด% ของตัวอย่างเหล่านั้นโดยที่ค่า acutal เป็นจริง (ในกรณีนี้ความแม่นยำสมบูรณ์จะเป็นถ้า% ของตัวอย่าง นั่นเป็นความจริง = 34%) prob_value_is_true
ฉันอาจจะสร้างคะแนนความถูกต้องได้จากข้อสรุปรูปแบบที่แตกต่างกันในแต่ละคุ้มค่าต่อเนื่องของ แต่ขนาดของกลุ่มตัวอย่างมีความกังวลอย่างมากโดยเฉพาะอย่างยิ่งในส่วนที่เกิน (ใกล้ 0% หรือ 100%) เช่นนั้นค่าเฉลี่ยของค่าอคิวตัลนั้นไม่ถูกต้องดังนั้นการใช้พวกมันในการวัดความแม่นยำของแบบจำลองนั้นไม่ถูกต้อง
ฉันยังพยายามสร้างช่วงขนาดใหญ่เพื่อให้แน่ใจว่ามีขนาดตัวอย่างที่เพียงพอ (0-.25, .25-.50, .50-.75, .75-1.0) แต่จะวัด "ดี" ของ% ของมูลค่าจริงได้หรือไม่ . พูดตัวอย่างทั้งหมดที่prob_value_is_true
อยู่ระหว่าง 0.25 ถึง 0.50 มีค่าเฉลี่ยacutal_value
0.45 ดีตั้งแต่อยู่ในช่วงหรือไม่ ไม่ดีเนื่องจากไม่ใกล้ 37.5% (จุดศูนย์กลางของช่วง)
ดังนั้นฉันจึงติดอยู่กับสิ่งที่ดูเหมือนว่าควรเป็นคำถามง่าย ๆ และหวังว่าใครบางคนสามารถชี้ให้ฉันไปที่ทรัพยากรหรือวิธีการในการคำนวณความแม่นยำที่แม่นยำสำหรับรูปแบบการถดถอยโลจิสติก