อะไรคือความแตกต่างในสิ่งที่ AIC และ c-statistic (AUC) วัดจริงสำหรับแบบจำลอง?


29

Akaike Information Criterion (AIC) และ c-statistic (พื้นที่ใต้กราฟ ROC) เป็นแบบวัดสองแบบที่เหมาะสำหรับการถดถอยโลจิสติกส์ ฉันมีปัญหาในการอธิบายสิ่งที่เกิดขึ้นเมื่อผลลัพธ์ของมาตรการทั้งสองไม่สอดคล้องกัน ฉันเดาว่าพวกเขากำลังวัดมุมมองที่แตกต่างกันเล็กน้อยของแบบจำลอง แต่ลักษณะเฉพาะเหล่านั้นคืออะไร

ฉันมีแบบจำลองการถดถอย 3 แบบ รุ่น M0 มีโควาเรียตมาตรฐาน รุ่น M1 เพิ่ม X1 ลงใน M0; รุ่น M2 เพิ่ม X2 ไปยัง M0 (ดังนั้น M1 และ M2 จึงไม่ซ้อนกัน)

ความแตกต่างใน AIC จาก M0 ถึงทั้ง M1 และ M2 อยู่ที่ประมาณ 15 บ่งชี้ว่า X1 และ X2 ปรับปรุงทั้งแบบพอดีและประมาณเท่ากัน

c- สถิติคือ: M0, 0.70; M1, 0.73; M2 0.72 ความแตกต่างใน c-statistic จาก M0 ถึง M1 มีความสำคัญ (วิธีการของ DeLong et al 1988) แต่ความแตกต่างจาก M0 ถึง M2 ไม่สำคัญแสดงว่า X1 ปรับปรุงแบบจำลองให้พอดี แต่ X2 ไม่ได้

X1 จะไม่ถูกรวบรวมเป็นประจำ X2 ควรถูกรวบรวมเป็นประจำ แต่หายไปในประมาณ 40% ของคดี เราต้องการตัดสินใจว่าจะเริ่มรวบรวม X1 หรือปรับปรุงการรวบรวม X2 หรือปล่อยตัวแปรทั้งสอง

จาก AIC เราสรุปได้ว่าตัวแปรทำการปรับปรุงคล้ายกับตัวแบบ อาจเป็นการง่ายกว่าที่จะปรับปรุงการรวบรวม X2 มากกว่าเริ่มรวบรวมตัวแปรใหม่ที่สมบูรณ์ (X1) ดังนั้นเราจึงมุ่งมั่นที่จะปรับปรุงการรวบรวม X2 แต่จากสถิติ c-X1 ปรับปรุงรูปแบบและ X2 ไม่ได้ดังนั้นเราควรลืม X2 และเริ่มรวบรวม X1

เนื่องจากคำแนะนำของเราขึ้นอยู่กับสถิติที่เรามุ่งเน้นเราจำเป็นต้องเข้าใจความแตกต่างในสิ่งที่พวกเขาวัดอย่างชัดเจน

คำแนะนำใด ๆ ยินดีต้อนรับ

คำตอบ:


25

AIC และ c-statistic พยายามตอบคำถามต่าง ๆ (นอกจากนี้ยังมีปัญหาบางอย่างเกี่ยวกับสถิติ c ในช่วงไม่กี่ปีที่ผ่านมา แต่ฉันจะอธิบายเรื่องนี้ด้วย)

พูดคร่าวๆ:

  • AIC จะบอกคุณวิธีที่ดีที่เหมาะกับรูปแบบของคุณสำหรับเฉพาะค่าใช้จ่ายผิดพลาดการจัดหมวดหมู่
  • AUC กำลังบอกคุณว่าแบบจำลองของคุณดีเพียงใดโดยเฉลี่ยสำหรับค่าใช้จ่ายในการจัดประเภทผิดทั้งหมด

เมื่อคุณคำนวณ AIC คุณปฏิบัติต่อโลจิสติกของคุณโดยให้คำทำนายที่ 0.9 ว่าจะเป็นการทำนายที่ 1 (เช่นมีแนวโน้มมากกว่า 1 มากกว่า 0) อย่างไรก็ตามไม่จำเป็นต้องเป็นเช่นนั้น คุณสามารถใช้คะแนนโลจิสติกของคุณและพูดว่า "อะไรก็ตามที่สูงกว่า 0.95 คือ 1 ทุกอย่างด้านล่างนี้เป็น 0" ทำไมคุณถึงทำเช่นนี้? สิ่งนี้จะช่วยให้มั่นใจว่าคุณจะคาดเดาได้ก็ต่อเมื่อคุณมั่นใจจริงๆเท่านั้น อัตราการบวกที่ผิดพลาดของคุณจะต่ำมาก แต่การลบเชิงเท็จของคุณจะสูงขึ้น ในบางสถานการณ์นี่ไม่ใช่เรื่องเลวร้าย - ถ้าคุณจะกล่าวหาใครบางคนที่เป็นการฉ้อโกงคุณอาจต้องแน่ใจก่อนจริงๆ นอกจากนี้หากการติดตามผลในเชิงบวกมีราคาแพงมากคุณก็ไม่ต้องการมากเกินไป

นี่คือสาเหตุที่เกี่ยวข้องกับต้นทุน มีค่าใช้จ่ายเมื่อคุณจำแนก 1 เป็น 0 และค่าใช้จ่ายเมื่อคุณจัดประเภท 0 เป็น 1 โดยทั่วไป (สมมติว่าคุณใช้การตั้งค่าเริ่มต้น) AIC สำหรับการถดถอยโลจิสติกหมายถึงกรณีพิเศษเมื่อการจำแนกผิดพลาดทั้งสองเท่ากัน แพง นั่นคือการถดถอยโลจิสติกให้จำนวนการคาดการณ์ที่ถูกต้องที่ดีที่สุดโดยไม่มีการตั้งค่าสำหรับค่าบวกหรือค่าลบ

เส้นโค้ง ROC ถูกใช้เนื่องจากการแปลงค่านี้เป็นค่าบวกจริงกับค่าบวกเท็จเพื่อแสดงว่าตัวแยกประเภทจะทำงานอย่างไรถ้าคุณใช้ภายใต้ข้อกำหนดด้านต้นทุนที่แตกต่างกัน สถิติ c เกิดขึ้นเนื่องจากเส้นโค้ง ROC ใด ๆ ที่อยู่เหนืออีกอย่างชัดเจนนั้นเป็นตัวแยกประเภทที่มีอำนาจเหนือกว่าอย่างชัดเจน ดังนั้นจึงเป็นเรื่องง่ายที่จะวัดพื้นที่ใต้เส้นโค้งเพื่อวัดความดีของตัวจําแนกโดยรวม

ดังนั้นโดยทั่วไปถ้าคุณรู้ค่าใช้จ่ายของคุณเมื่อติดตั้งแบบจำลองให้ใช้ AIC (หรือคล้ายกัน) หากคุณเพิ่งสร้างคะแนน แต่ไม่ได้ระบุเกณฑ์การวินิจฉัยดังนั้นจึงจำเป็นต้องใช้วิธีการของ AUC (โดยมีข้อควรพิจารณาต่อไปนี้เกี่ยวกับ AUC เอง)

แล้ว c-statistic / AUC / Gini มีอะไรผิดปกติ?

หลายปีที่ผ่านมา AUC เป็นวิธีการมาตรฐานและยังคงใช้กันอย่างแพร่หลาย แต่ก็มีปัญหาหลายประการ สิ่งหนึ่งที่ทำให้มันน่าสนใจเป็นพิเศษคือมันสอดคล้องกับการทดสอบของ Wilcox ในการจำแนกประเภท นั่นคือมันวัดความน่าจะเป็นที่คะแนนของสมาชิกที่เลือกแบบสุ่มของคลาสหนึ่งจะสูงกว่าสมาชิกที่เลือกแบบสุ่มของคลาสอื่น ปัญหาคือว่าแทบจะไม่เคยเป็นตัวชี้วัดที่มีประโยชน์

ปัญหาที่ร้ายแรงที่สุดกับ AUC นั้นเผยแพร่โดย David Hand เมื่อไม่กี่ปีก่อน (ดูการอ้างอิงด้านล่าง) ปมของปัญหาคือในขณะที่ AUC เฉลี่ยมากกว่าค่าใช้จ่ายทั้งหมดเนื่องจากแกน x ของเส้นโค้ง ROC เป็นอัตราบวกเป็นเท็จน้ำหนักที่มันกำหนดให้กับระบบต้นทุนที่แตกต่างกันจะแตกต่างกันระหว่างตัวแยกประเภท ดังนั้นหากคุณคำนวณ AUC จากการถดถอยของ logitic ที่ต่างกันสองตัวมันจะไม่ทำการวัด "สิ่งเดียวกัน" ในทั้งสองกรณี ซึ่งหมายความว่ามันไม่มีเหตุผลที่จะเปรียบเทียบแบบจำลองที่อ้างอิงจาก AUC

มือเสนอการคำนวณทางเลือกโดยใช้การถ่วงน้ำหนักต้นทุนคงที่และเรียกสิ่งนี้ว่า H-measure - มีแพ็กเกจใน R ที่เรียกhmeasureว่าจะทำการคำนวณนี้และฉันเชื่อว่า AUC สำหรับการเปรียบเทียบ

การอ้างอิงบางส่วนเกี่ยวกับปัญหากับ AUC:

  • เมื่อใดที่พื้นที่ภายใต้เส้นโค้งลักษณะการทำงานของตัวรับสัญญาณเป็นการวัดประสิทธิภาพของตัวจําแนกที่เหมาะสม? Hand DJ, C. Anagnostopoulos ตัวอักษรการจดจำรูปแบบ 34 (2013) 492–495

    (ฉันพบว่านี่เป็นคำอธิบายที่เข้าถึงได้ง่ายและมีประโยชน์)


2
และนี่คือกระดาษอีกแผ่นโดย DJ Hand: การวัดประสิทธิภาพของตัวจําแนก: ทางเลือกที่สอดคล้องกันกับพื้นที่ภายใต้เส้นโค้ง ROC , การเรียนรู้ของเครื่อง (2009) 77: 103–123
chl

นั่นคือสิ่งที่ฉันกำลังมองหา - ใช่ว่าเป็นเอกสารฉบับแรกที่สำคัญในเรื่องนี้ (แม้ว่าฉันคิดว่ามันเป็นเป้าหมายที่ผู้ชมทางเทคนิคมากกว่าเอกสารบางส่วนในภายหลัง)
Corone

3
R2

ฉันสับสนกับคำตอบของ Corone ฉันคิดว่า AIC ไม่มีส่วนเกี่ยวข้องกับประสิทธิภาพการทำนายของแบบจำลองและเป็นเพียงการวัดความน่าจะเป็นของข้อมูลที่แลกเปลี่ยนกับความซับซ้อนของแบบจำลอง
Zhubarb

@Berkan ไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ไม่มีอะไรจะทำอย่างไรกับประสิทธิภาพการทำนาย" เว้นแต่คุณเพียงแค่หมายความว่ามันเป็นตัวชี้วัดในตัวอย่างที่ไม่ได้ออกจากตัวอย่าง? (โอกาสที่ดีกว่าก็คือ "คาดการณ์" จุดข้อมูลเหล่านั้นดีกว่า) ประเด็นก็คือว่า AIC นั้นมีไว้สำหรับฟังก์ชั่นความเป็นไปได้เฉพาะที่เลือกไว้ล่วงหน้าในขณะที่ AIC นั้นเป็นค่าเฉลี่ยมากกว่าชุดของพวกเขา หากคุณรู้ว่าโอกาส (เช่นขีด จำกัด ต้นทุนความชุก ... ) คุณสามารถใช้ AIC ได้
Corone

3

Hand hand อ้างถึงไม่มีพื้นฐานในการใช้งานจริงในการวินิจฉัยทางคลินิก เขามีเส้นโค้งเชิงทฤษฎีที่มี 0.5 AUC ซึ่งแทนที่จะเป็นลักษณนามที่สมบูรณ์แบบ เขาใช้ชุดข้อมูลจริงในโลกเดียวซึ่งโมเดลจะถูกโยนทิ้งไปเพราะมันแย่มากและเมื่อบัญชีสำหรับช่วงความมั่นใจรอบการวัด (ข้อมูลไม่ได้ให้ แต่อนุมาน) มีแนวโน้มที่จะสุ่ม . เนื่องจากขาดข้อมูลในโลกแห่งความเป็นจริง (หรือแม้แต่การจำลองสถานการณ์ที่น่าเชื่อถือ) นี่คือกระดาษกลวง ฉันเองมีส่วนร่วมในการวิเคราะห์ของตัวแยกประเภทนับพันในบรรดาผู้ป่วยนับพัน ในบริบทนั้นการโต้เถียงของเขานั้นไม่ใช่ความรู้สึก

นอกจากนี้เขายังมีแนวโน้มที่จะมีประสิทธิภาพสูงสุด (ไม่ใช่สัญญาณที่ดีในบริบทใด ๆ ) และทำให้การวางแนวทั่วไปไม่ได้รับการสนับสนุนเช่นไม่สามารถทราบต้นทุนได้ ในทางการแพทย์มีค่าใช้จ่ายที่ยอมรับได้เช่นค่าทำนายผลบวก 10% สำหรับการตรวจคัดกรองและ $ 100,000 ต่อปีคุณภาพชีวิตที่ปรับสำหรับการรักษา ฉันคิดว่ามันยากที่จะเชื่อว่าในการให้คะแนนเครดิตค่าใช้จ่ายนั้นไม่เป็นที่เข้าใจหากเขากำลังพูดว่า (ไม่ชัดเจน) ว่าผลบวกปลอมและลบเชิงลบแต่ละรายการมีต้นทุนที่แตกต่างกันในขณะที่เป็นหัวข้อที่น่าสนใจมาก ตัวจําแนกไบนารี

หากประเด็นของเขาคือรูปร่างของ ROC นั้นมีความสำคัญสำหรับผู้ใช้ที่มีความซับซ้อนและผู้ใช้ที่ไม่มีความซับซ้อนมีความกังวลมากมายเช่นการรวมความชุกเข้าไปในค่าทำนายเชิงบวกและลบ

ในที่สุดฉันก็สูญเสียที่จะเข้าใจว่าตัวจำแนกประเภทที่แตกต่างกันไม่สามารถตัดสินได้จากการใช้ตัวแบบจำลองทางคลินิก (หรือการเงิน) ในโลกแห่งความเป็นจริงที่หลากหลาย เห็นได้ชัดว่ามีการเลือกต่างประเทศสำหรับแต่ละรุ่น โมเดลจะไม่ถูกนำมาเปรียบเทียบโดยอ้างอิงจาก AUC เท่านั้น ตัวแยกประเภทไม่สำคัญ แต่รูปร่างของเส้นโค้งจะเป็นเช่นไร


-1

สำหรับฉันบรรทัดล่างคือในขณะที่ C-statistic (AUC) อาจมีปัญหาเมื่อเปรียบเทียบแบบจำลองกับตัวแปรอิสระที่แตกต่างกัน (คล้ายกับสิ่งที่ Hand อ้างถึงเป็น "ตัวแยกประเภท") แต่ก็ยังมีประโยชน์ในแอปพลิเคชันอื่น ๆ ตัวอย่างเช่นการศึกษาการตรวจสอบความถูกต้องที่มีการเปรียบเทียบแบบจำลองเดียวกันกับประชากรการศึกษาที่แตกต่างกัน (ชุดข้อมูล) หากแบบจำลองหรือดัชนีความเสี่ยง / คะแนนแสดงให้เห็นว่ามีการเลือกปฏิบัติสูงในประชากรหนึ่ง แต่ไม่ใช่ในคนอื่น ๆ นี่อาจหมายความว่ามันไม่ใช่เครื่องมือที่ดีมากโดยทั่วไป แต่อาจอยู่ในกรณีเฉพาะ


3
ดัชนี C นั้นไม่มีความอ่อนไหวเกินกว่าที่จะใช้ในการเปรียบเทียบแบบจำลองต่างๆโดยทั่วไป ฉันมักจะใช้ทั่วไปR2หรือมาตรการที่อิงกับความเบี่ยงเบนอื่น ๆ รวมถึง AIC และโปรดทราบว่า AIC ไม่เกี่ยวข้องกับการจำแนก / จุดตัด
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.