การเชื่อมต่อระหว่าง (d-prime) และ AUC (Area Under the ROC Curve); สมมติฐานพื้นฐาน


13

ในการเรียนรู้ของเครื่องเราอาจใช้พื้นที่ใต้เส้นโค้ง ROC (มักเรียกว่าAUCย่อหรือ AUROC) เพื่อสรุปว่าระบบสามารถแยกแยะระหว่างสองประเภทได้ดีเพียงใด ในทฤษฎีการตรวจจับสัญญาณมักใช้ (ดัชนีความไว)เพื่อวัตถุประสงค์ที่คล้ายกัน ทั้งสองมีความเกี่ยวข้องใกล้ชิดและผมเชื่อว่าพวกเขาจะเทียบเท่ากับแต่ละอื่น ๆ หากสมมติฐานบางอย่างมีความพึงพอใจd

การคำนวณมักจะนำเสนอโดยยึดตามการแจกแจงแบบปกติสำหรับการแจกแจงสัญญาณ (ดูลิงค์วิกิพีเดียด้านบนเป็นต้น) การคำนวณโค้ง ROC ไม่ได้ทำให้สมมติฐานนี้: มันใช้กับตัวจําแนกใด ๆ ที่ส่งออกเกณฑ์การตัดสินใจอย่างต่อเนื่องมูลค่าที่สามารถเกณฑ์d

วิกิพีเดียกล่าวว่าเทียบเท่ากับ1 ดูเหมือนว่าจะถูกต้องถ้าสมมติฐานของทั้งสองมีความพึงพอใจ; แต่ถ้าสมมติฐานไม่เหมือนกันมันไม่ใช่ความจริงสากล 2 AUC - 1d2AUC1

มันยุติธรรมหรือไม่ที่จะแสดงลักษณะของความแตกต่างของข้อสันนิษฐานเนื่องจาก "AUC ทำให้สมมติฐานน้อยลงเกี่ยวกับการแจกแจงพื้นฐาน" หรือเป็นใช้กันอย่างแพร่หลายเช่นเดียวกับ AUC แต่เป็นเพียงการปฏิบัติทั่วไปที่ผู้ใช้มีแนวโน้มที่จะใช้การคำนวณที่ถือว่าการแจกแจงปกติ? มีข้อแตกต่างอื่น ๆ ในสมมติฐานพื้นฐานที่ฉันพลาดหรือไม่?d dd

คำตอบ:


7

ไม่ค่าสูงสุดของ AUC คือ 1. d 'ไม่มีค่าสูงสุด

ฉันเชื่อว่า d 'เท่ากับ qnorm (AUC) * sqrt (2) (ความทรงจำของฉันเกี่ยวกับหนังสือสถิติเก่าที่ฉันหาไม่ได้ในตอนนี้ แต่ดูเหมือนว่าจะดูข้อมูลบางอย่างที่ฉันพบบนเว็บ) ที่นี่ qnorm (x) คือ "ฟังก์ชันควอนไทล์สำหรับการแจกแจงแบบปกติ" (R-speak) นั่นคือมันส่งกลับค่าของการแจกแจงแบบปกติที่สัดส่วนการแจกแจง x อยู่ต่ำกว่า


2
ขอบคุณเสียงนี้ถูกต้องสำหรับฉัน - อย่างไรก็ตามถ้าเราถือว่าการแจกแจงเป็นปกติ (เนื่องจากการใช้ qnorm ()) ฉันแก้ไขถ้อยคำวิกิพีเดีย
Dan Stowell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.