AIC และ c-statistic พยายามตอบคำถามต่าง ๆ (นอกจากนี้ยังมีปัญหาบางอย่างเกี่ยวกับสถิติ c ในช่วงไม่กี่ปีที่ผ่านมา แต่ฉันจะอธิบายเรื่องนี้ด้วย)
พูดคร่าวๆ:
- AIC จะบอกคุณวิธีที่ดีที่เหมาะกับรูปแบบของคุณสำหรับเฉพาะค่าใช้จ่ายผิดพลาดการจัดหมวดหมู่
- AUC กำลังบอกคุณว่าแบบจำลองของคุณดีเพียงใดโดยเฉลี่ยสำหรับค่าใช้จ่ายในการจัดประเภทผิดทั้งหมด
เมื่อคุณคำนวณ AIC คุณปฏิบัติต่อโลจิสติกของคุณโดยให้คำทำนายที่ 0.9 ว่าจะเป็นการทำนายที่ 1 (เช่นมีแนวโน้มมากกว่า 1 มากกว่า 0) อย่างไรก็ตามไม่จำเป็นต้องเป็นเช่นนั้น คุณสามารถใช้คะแนนโลจิสติกของคุณและพูดว่า "อะไรก็ตามที่สูงกว่า 0.95 คือ 1 ทุกอย่างด้านล่างนี้เป็น 0" ทำไมคุณถึงทำเช่นนี้? สิ่งนี้จะช่วยให้มั่นใจว่าคุณจะคาดเดาได้ก็ต่อเมื่อคุณมั่นใจจริงๆเท่านั้น อัตราการบวกที่ผิดพลาดของคุณจะต่ำมาก แต่การลบเชิงเท็จของคุณจะสูงขึ้น ในบางสถานการณ์นี่ไม่ใช่เรื่องเลวร้าย - ถ้าคุณจะกล่าวหาใครบางคนที่เป็นการฉ้อโกงคุณอาจต้องแน่ใจก่อนจริงๆ นอกจากนี้หากการติดตามผลในเชิงบวกมีราคาแพงมากคุณก็ไม่ต้องการมากเกินไป
นี่คือสาเหตุที่เกี่ยวข้องกับต้นทุน มีค่าใช้จ่ายเมื่อคุณจำแนก 1 เป็น 0 และค่าใช้จ่ายเมื่อคุณจัดประเภท 0 เป็น 1 โดยทั่วไป (สมมติว่าคุณใช้การตั้งค่าเริ่มต้น) AIC สำหรับการถดถอยโลจิสติกหมายถึงกรณีพิเศษเมื่อการจำแนกผิดพลาดทั้งสองเท่ากัน แพง นั่นคือการถดถอยโลจิสติกให้จำนวนการคาดการณ์ที่ถูกต้องที่ดีที่สุดโดยไม่มีการตั้งค่าสำหรับค่าบวกหรือค่าลบ
เส้นโค้ง ROC ถูกใช้เนื่องจากการแปลงค่านี้เป็นค่าบวกจริงกับค่าบวกเท็จเพื่อแสดงว่าตัวแยกประเภทจะทำงานอย่างไรถ้าคุณใช้ภายใต้ข้อกำหนดด้านต้นทุนที่แตกต่างกัน สถิติ c เกิดขึ้นเนื่องจากเส้นโค้ง ROC ใด ๆ ที่อยู่เหนืออีกอย่างชัดเจนนั้นเป็นตัวแยกประเภทที่มีอำนาจเหนือกว่าอย่างชัดเจน ดังนั้นจึงเป็นเรื่องง่ายที่จะวัดพื้นที่ใต้เส้นโค้งเพื่อวัดความดีของตัวจําแนกโดยรวม
ดังนั้นโดยทั่วไปถ้าคุณรู้ค่าใช้จ่ายของคุณเมื่อติดตั้งแบบจำลองให้ใช้ AIC (หรือคล้ายกัน) หากคุณเพิ่งสร้างคะแนน แต่ไม่ได้ระบุเกณฑ์การวินิจฉัยดังนั้นจึงจำเป็นต้องใช้วิธีการของ AUC (โดยมีข้อควรพิจารณาต่อไปนี้เกี่ยวกับ AUC เอง)
แล้ว c-statistic / AUC / Gini มีอะไรผิดปกติ?
หลายปีที่ผ่านมา AUC เป็นวิธีการมาตรฐานและยังคงใช้กันอย่างแพร่หลาย แต่ก็มีปัญหาหลายประการ สิ่งหนึ่งที่ทำให้มันน่าสนใจเป็นพิเศษคือมันสอดคล้องกับการทดสอบของ Wilcox ในการจำแนกประเภท นั่นคือมันวัดความน่าจะเป็นที่คะแนนของสมาชิกที่เลือกแบบสุ่มของคลาสหนึ่งจะสูงกว่าสมาชิกที่เลือกแบบสุ่มของคลาสอื่น ปัญหาคือว่าแทบจะไม่เคยเป็นตัวชี้วัดที่มีประโยชน์
ปัญหาที่ร้ายแรงที่สุดกับ AUC นั้นเผยแพร่โดย David Hand เมื่อไม่กี่ปีก่อน (ดูการอ้างอิงด้านล่าง) ปมของปัญหาคือในขณะที่ AUC เฉลี่ยมากกว่าค่าใช้จ่ายทั้งหมดเนื่องจากแกน x ของเส้นโค้ง ROC เป็นอัตราบวกเป็นเท็จน้ำหนักที่มันกำหนดให้กับระบบต้นทุนที่แตกต่างกันจะแตกต่างกันระหว่างตัวแยกประเภท ดังนั้นหากคุณคำนวณ AUC จากการถดถอยของ logitic ที่ต่างกันสองตัวมันจะไม่ทำการวัด "สิ่งเดียวกัน" ในทั้งสองกรณี ซึ่งหมายความว่ามันไม่มีเหตุผลที่จะเปรียบเทียบแบบจำลองที่อ้างอิงจาก AUC
มือเสนอการคำนวณทางเลือกโดยใช้การถ่วงน้ำหนักต้นทุนคงที่และเรียกสิ่งนี้ว่า H-measure - มีแพ็กเกจใน R ที่เรียกhmeasure
ว่าจะทำการคำนวณนี้และฉันเชื่อว่า AUC สำหรับการเปรียบเทียบ
การอ้างอิงบางส่วนเกี่ยวกับปัญหากับ AUC:
เมื่อใดที่พื้นที่ภายใต้เส้นโค้งลักษณะการทำงานของตัวรับสัญญาณเป็นการวัดประสิทธิภาพของตัวจําแนกที่เหมาะสม? Hand DJ, C. Anagnostopoulos ตัวอักษรการจดจำรูปแบบ 34 (2013) 492–495
(ฉันพบว่านี่เป็นคำอธิบายที่เข้าถึงได้ง่ายและมีประโยชน์)