ฉันคิดว่าคุณควรตรวจสอบตัวชี้วัดมากกว่าที่เป็นเพียงแค่ AUC และความแม่นยำ
ความแม่นยำ (พร้อมความไวและความเฉพาะเจาะจง) เป็นตัวชี้วัดที่เรียบง่าย แต่มีอคติซึ่งบังคับให้คุณดูผลลัพธ์การทำนายแบบสัมบูรณ์และไม่เปิดรับการยืนยันความน่าจะเป็นหรือการจัดลำดับชั้นเรียน นอกจากนี้ยังไม่คำนึงถึงประชากรที่เชิญให้ตีความแบบจำลองที่ให้ความแม่นยำ 95% กับประชากรที่มีโอกาส 95% ที่ถูกต้องแบบสุ่มไม่ได้เป็นแบบจำลองที่ดีแม้ว่าความแม่นยำจะสูงก็ตาม
AUC เป็นตัวชี้วัดที่ดีสำหรับการยืนยันความถูกต้องของแบบจำลองซึ่งไม่ขึ้นกับความน่าจะเป็นของระดับประชากร อย่างไรก็ตามจะไม่บอกอะไรคุณเกี่ยวกับความน่าจะเป็นของการประมาณความน่าจะเป็นที่ดีเพียงใด คุณสามารถได้รับ AUC สูง แต่ก็ยังมีการประมาณการความน่าจะเป็นที่เบ้มาก การวัดนี้มีการแบ่งแยกมากกว่าความแม่นยำและแน่นอนจะให้แบบจำลองที่ดีขึ้นเมื่อคุณใช้ร่วมกับกฎการให้คะแนนที่เหมาะสมเช่นคะแนน Brier ตามที่กล่าวไว้ในโพสต์อื่น
คุณสามารถรับการพิสูจน์ที่เป็นทางการได้มากขึ้นที่นี่แม้ว่าบทความนี้จะค่อนข้างเชิงทฤษฎี: AUC: การวัดที่สอดคล้องทางสถิติและการแบ่งแยกที่มากกว่าความแม่นยำ
อย่างไรก็ตามมีมาตรวัดที่ดีมากมาย
ฟังก์ชั่นการสูญเสียสำหรับการประมาณความน่าจะเป็นระดับ Binary และการจำแนกประเภท: โครงสร้างและการใช้งานเป็นกระดาษที่ดีในการตรวจสอบกฎการให้คะแนนที่เหมาะสมเช่นคะแนน Brier
กระดาษอื่นที่น่าสนใจที่มีตัวชี้วัดสำหรับการยืนยันของประสิทธิภาพการทำงานรูปแบบการประเมินผล: จากความแม่นยำการเรียกคืนและ F-มาตรการร็อค informedness, เด่นชัดและความสัมพันธ์การขึ้นตัวชี้วัดประสิทธิภาพการทำงานที่ดีอื่น ๆ เช่น informedness
เพื่อสรุปฉันขอแนะนำให้ดูที่คะแนน AUC / Gini และ Brier เพื่อยืนยันประสิทธิภาพของแบบจำลองของคุณ แต่ขึ้นอยู่กับเป้าหมายด้วยแบบจำลองของคุณตัวชี้วัดอื่น ๆ อาจเหมาะกับปัญหาของคุณดีกว่า