วิธีคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือสถิติ c ด้วยมือ
ฉันสนใจในการคำนวณพื้นที่ภายใต้เส้นโค้ง (AUC) หรือ c-statistic ด้วยมือสำหรับแบบจำลองการถดถอยแบบโลจิสติกไบนารี ตัวอย่างเช่นในชุดข้อมูลการตรวจสอบความถูกต้องฉันมีค่าจริงสำหรับตัวแปรตาม, การเก็บรักษา (1 = เก็บไว้; 0 = ไม่เก็บไว้), เช่นเดียวกับสถานะการเก็บรักษาที่คาดการณ์ไว้สำหรับการสังเกตแต่ละครั้งที่สร้างขึ้นโดยการวิเคราะห์การถดถอย สร้างโดยใช้ชุดการฝึกอบรม (ซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1) ความคิดเริ่มต้นของฉันคือการระบุจำนวนของการจำแนกประเภทของโมเดลที่ถูกต้องและหารจำนวนการสังเกตที่ถูกต้องด้วยจำนวนการสังเกตทั้งหมดเพื่อคำนวณ c-statistic โดย "ถูกต้อง" หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์คือ> 0.5 แสดงว่าเป็นการจำแนกประเภท "ถูกต้อง" นอกจากนี้หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 0 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ <0.5 แสดงว่าเป็นหมวดหมู่ "ถูกต้อง" ด้วย ฉันถือว่า "เน็คไท" จะเกิดขึ้นเมื่อค่าที่คาดการณ์ = 0.5 แต่ปรากฏการณ์นั้นไม่เกิดขึ้นในชุดข้อมูลการตรวจสอบความถูกต้องของฉัน ในทางตรงกันข้ามการจำแนกประเภท "ไม่ถูกต้อง" จะเป็นถ้าสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ …