เป็นคำถามที่ยอดเยี่ยมจริงๆและเป็นคำถามที่ฉันพบว่าคนส่วนใหญ่ไม่เข้าใจในระดับที่เข้าใจง่าย AUC
ในความเป็นจริงมักจะต้องการความถูกต้องมากกว่าสำหรับการจำแนกเลขฐานสองด้วยเหตุผลหลายประการ ก่อนอื่นเรามาพูดถึงสิ่งที่AUC
เป็น จริงๆแล้วสำหรับการเป็นหนึ่งในตัวชี้วัดประสิทธิภาพที่มีการใช้กันอย่างแพร่หลายมากที่สุดก็เป็นเรื่องที่น่าประหลาดใจที่ต้องคิดออกว่าAUC
ทำงานอย่างไร
AUC
ย่อมาจากArea Under the Curve
ซึ่งคุณถามโค้ง นั่นก็คือROC
เส้นโค้ง ROC
ย่อมาจากลักษณะการดำเนินงานของผู้รับซึ่งจริงๆแล้วไม่ใช่เรื่องง่าย เป้าหมายโดยปริยายของAUC
คือการจัดการกับสถานการณ์ที่คุณมีการแจกแจงตัวอย่างที่เบ้มากและไม่ต้องการให้มีระดับมากเกินไป
ตัวอย่างที่ดีคือการตรวจจับสแปม โดยทั่วไปชุดข้อมูลสแปมจะเอนเอียงไปทางแฮมอย่างรุนแรงหรือไม่เป็นสแปม หากชุดข้อมูลของคุณเป็น 90% แฮมคุณสามารถได้รับความถูกต้องที่ดีโดยเพียงแค่บอกว่าอีเมลทุกฉบับเป็นแฮมซึ่งเป็นสิ่งที่บ่งบอกถึงตัวแยกประเภทที่ไม่เหมาะ เริ่มจากตัวชี้วัดสองสามตัวที่มีประโยชน์มากกว่าสำหรับเราเล็กน้อยโดยเฉพาะอัตราบวกจริง ( TPR
) และอัตราบวกผิดพลาด ( FPR
):
ตอนนี้ในกราฟนี้TPR
คืออัตราส่วนเฉพาะของค่าบวกที่เป็นบวกต่อค่าบวกทั้งหมดและFPR
อัตราส่วนของค่าบวกเท็จสำหรับค่าลบทั้งหมด (โปรดจำไว้ว่านี่เป็นเพียงการจำแนกไบนารีเท่านั้น) ในกราฟเช่นนี้ควรตรงไปตรงมามากหากการคาดการณ์ของ 0 หรือ 1 ทั้งหมดจะส่งผลให้คะแนน(0,0)
และ(1,1)
ตามลำดับ หากคุณวาดเส้นผ่านเส้นเหล่านี้คุณจะได้รับสิ่งนี้:
ซึ่งโดยทั่วไปจะมีลักษณะเป็นเส้นทแยงมุม (เป็น) และโดยรูปทรงเรขาคณิตที่เรียบง่ายคุณจะเห็นได้ว่าAUC
แบบจำลองดังกล่าวจะเป็น0.5
(ความสูงและฐานมีทั้ง 1) ในทำนองเดียวกันถ้าคุณทำนายการสุ่มเลือกของ 0 และ 1 สมมุติว่า 90% 1 คุณจะได้คะแนน(0.9, 0.9)
ซึ่งตกไปตามเส้นทแยงมุมอีกครั้ง
ตอนนี้ส่วนที่น่าสนใจมา ถ้าเราไม่ได้ทำนายแค่ 0 กับ 1 ถ้าเป็นเช่นนั้นเราอยากจะบอกว่าในทางทฤษฎีเราจะตั้งค่า cutoff โดยที่ทุกผลลัพธ์เป็น 1 และต่ำกว่าซึ่งทุกผลลัพธ์เป็น 0 นั่นก็หมายความว่าในสุดขั้วคุณจะได้รับสถานการณ์เริ่มต้นที่คุณ มีทั้งหมด 0 และ 1 (ที่ตัดของ 0 และ 1 ตามลำดับ) แต่ยังชุดของรัฐระดับกลางที่ตกอยู่ในกราฟที่มีของคุณ1x1
ROC
ในทางปฏิบัติคุณจะได้รับสิ่งนี้:
สิ่งที่คุณได้รับจริง ๆ เมื่อคุณทำAUC
สิ่งที่ถูกต้องแม่นยำเกินกว่าจะเป็นสิ่งที่จะกีดกันผู้คนที่ไปหานางแบบที่เป็นตัวแทน แต่ไม่เลือกปฏิบัติเพราะนี่จะเลือกเฉพาะรุ่นที่ได้ผลบวกปลอมจริง มีโอกาสสูงกว่าการสุ่มซึ่งไม่รับประกันความถูกต้องอย่างมีนัยสำคัญ