AUC น่าจะเป็นของการจำแนกอินสแตนซ์ที่เลือกแบบสุ่มจากแต่ละชั้นอย่างถูกต้องหรือไม่


11

ฉันอ่านคำอธิบายภาพนี้ในกระดาษและไม่เคยเห็น AUC อธิบายในลักษณะนี้ที่อื่น มันเป็นเรื่องจริงเหรอ? มีหลักฐานหรือวิธีง่ายๆในการดูสิ่งนี้หรือไม่?

ภาพที่ 2 แสดงความถูกต้องในการทำนายของตัวแปรโดมิโนที่แสดงในรูปของพื้นที่ภายใต้เส้นโค้งลักษณะการรับ - ปฏิบัติการ (AUC) ซึ่งเทียบเท่ากับความน่าจะเป็นในการจำแนกผู้ใช้สองคนที่เลือกแบบสุ่มอย่างละหนึ่งคน )

สำหรับฉันแล้วดูเหมือนว่ามันไม่เป็นความจริงเนื่องจากสำหรับ AUC = 0.5 ข้างต้นจะแนะนำว่ามีความน่าจะเป็น 50% ในการทำนายการพลิกเหรียญอย่างถูกต้องสองครั้งติดต่อกัน แต่ในความเป็นจริงคุณมีโอกาส 25% เท่านั้น การทำนายการโยนเหรียญสองครั้งในแถวอย่างถูกต้อง อย่างน้อยนั่นคือสิ่งที่ฉันกำลังคิดถึงคำแถลงนี้


1
ฉันขอขอบคุณแนวคิดที่แสดงในชื่อไม่ถูกต้องอยู่ดี แต่เพื่อให้ตรงกับคำพูดมันไม่ควรพูดว่า "ความน่าจะเป็นในการจำแนกอย่างถูกต้อง ... " แทนที่จะเป็นเพียง "ความน่าจะเป็นของการจำแนก" นั่นทำให้ฉันสับสนในครั้งแรกที่ฉันอ่าน
Silverfish

1
มันเป็นชื่อที่ยาวพอแล้ว! ฉันคิดว่าการเพิ่ม "ถูกต้อง" เชื่อจริงหรือไม่ :)
thecity2

คำตอบ:


14

ใบเสนอราคาไม่ถูกต้องเล็กน้อย คำสั่งที่ถูกต้องคือ ROC AUC คือความน่าจะเป็นตัวอย่างบวกที่เลือกแบบสุ่มถูกจัดอันดับสูงกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่ม นี่เป็นเพราะความสัมพันธ์ระหว่าง ROC AUC และการทดสอบของวิลคอกซัน

คุณจะพบการสนทนาใน Tom Fawcett " การวิเคราะห์ ROC เบื้องต้น " ที่ให้แสงสว่าง


8

คำอธิบายของผู้เขียนไม่ถูกต้องทั้งหมด พื้นที่ใต้เส้นโค้ง ROC นั้นเท่ากับความน่าจะเป็นที่ตัวอย่างเชิงบวกที่เลือกแบบสุ่มมีคะแนนความเสี่ยงสูงกว่าแบบสุ่มเชิงลบที่เลือกแบบสุ่ม นี่ไม่จำเป็นต้องเกี่ยวกับการจำแนกประเภท แต่เป็นเพียงการวัดการแยกระหว่างการแจกแจงคะแนน

สำหรับตัวอย่างเหรียญลองจินตนาการว่าคุณมีสองเหรียญและแต่ละคะแนนมีคะแนนที่เกี่ยวข้อง จากนั้นคุณพลิกเหรียญทั้งสองจนกระทั่งมีหัวขึ้นและก้อยอีกอันหนึ่ง นี่เท่ากับการมีแบบจำลองที่ให้คะแนนแบบสุ่มและความน่าจะเป็นที่เหรียญที่ขึ้นหัวมีคะแนนสูงกว่า (หรือต่ำกว่า) คือ 1/2


2

คำอธิบายที่คุณอ่านถูกต้องแล้วแม้ว่าฉันจะไม่ชอบข้อความ พื้นที่ภายใต้เส้นโค้ง ROC (AUC) คือความน่าจะเป็นในการจำแนกคู่แบบสุ่มของบุคคลในคลาส 1 จากคลาส 2 อย่างถูกต้องมันเป็นสถิติตามอันดับดังนั้นถ้าคุณต้องเดาว่าบุคคลหนึ่งคนในอันดับที่สูงกว่า อื่น ๆ นั่นเป็นเพียงโอกาส 50% ถ้าเดาโดยการสุ่ม AUC นั้นเหมือนกัน [1] กับสถิติการทดสอบของวิลคอกซันที่ลงนามและนี่สามารถใช้เพื่อแสดงความหมายของมัน

[1]: Mason & Graham (2002) พื้นที่ที่อยู่ใต้เส้นโค้งลักษณะการดำเนินงานสัมพัทธ์ (ROC) และเส้นโค้งระดับการทำงานสัมพัทธ์ (ROL): นัยสำคัญทางสถิติและการตีความ วารสารรายไตรมาสของสมาคมอุตุนิยมวิทยา 128: 2145–2166


1

ในขณะที่คนอื่น ๆ ชี้ให้เห็นว่า AUC แสดงความน่าจะเป็นที่ตัวอย่างที่เลือกแบบสุ่มจากชั้นบวกจะได้รับจากตัวจําแนกซึ่งเป็นคะแนนที่สูงกว่าตัวอย่างที่เลือกแบบสุ่มจากชั้นลบ

สำหรับการพิสูจน์คุณสมบัตินี้ดู: วิธีการรับสูตรทางคณิตศาสตร์สำหรับ AUC ได้อย่างไร

หรือแหล่งที่ใช้สำหรับคำตอบนั้น: D. Hand, 2009, การวัดประสิทธิภาพตัวจําแนก: ทางเลือกที่สอดคล้องกันกับพื้นที่ภายใต้เส้นโค้ง ROC

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.