บริเวณใต้กราฟของ ROC กับความแม่นยำโดยรวม


29

ฉันสับสนเล็กน้อยเกี่ยวกับ Area Under Curve (AUC) ของ ROC และความแม่นยำโดยรวม

  1. AUC จะเป็นสัดส่วนกับความแม่นยำโดยรวมหรือไม่ กล่าวอีกนัยหนึ่งเมื่อเรามีความแม่นยำโดยรวมที่มากขึ้นเราจะได้รับ AUC ที่มากขึ้นอย่างแน่นอนหรือไม่ หรือพวกเขาโดยนิยามมีความสัมพันธ์เชิงบวก?

  2. หากพวกเขามีความสัมพันธ์เชิงบวกทำไมเราถึงต้องรายงานทั้งสองอย่างในสิ่งพิมพ์บางเล่ม?

  3. ในกรณีจริงฉันดำเนินการจัดหมวดหมู่และได้ผลลัพธ์ดังนี้ลักษณนาม A มีความแม่นยำ 85% และ AUC 0.98 และลักษณนาม B มีความแม่นยำ 93% และ AUC 0.92 คำถามคือลักษณนามอะไรดีกว่ากัน? หรือเป็นไปได้ที่จะได้รับผลลัพธ์ที่คล้ายกันเช่นนี้ (ฉันหมายถึงอาจมีข้อผิดพลาดในการใช้งานของฉัน)?


1
ฉันพบว่ากระดาษอาจมีความสนใจสำหรับคุณบางคน google.co.uk/…
Samo Jerom

AUC ควรจะน้อยกว่าความแม่นยำโดยรวมหรือไม่เนื่องจากเรานับเป็นอัตราบวกที่ผิดพลาดในการวัด AUC ในขณะที่เราไม่ได้แม่นยำ
Ali Sultan

ROC AUC มีประโยชน์เมื่อคลาสมีขนาดแตกต่างกัน หาก 99% ของวัตถุเป็นบวกความแม่นยำ 99% สามารถทำได้โดยการสุ่มตัวอย่าง จากนั้นค่า ROC AUC จะมีความหมายมากกว่านี้มาก
Anony-Mousse

คำตอบ:


26

AUC (ขึ้นอยู่กับ ROC) และความแม่นยำโดยรวมดูเหมือนจะไม่ใช่แนวคิดเดียวกัน

ความแม่นยำโดยรวมขึ้นอยู่กับจุดตัดเฉพาะจุดหนึ่งในขณะที่ ROC พยายามจุดตัดทั้งหมดและวางแผนความไวและความเฉพาะเจาะจง ดังนั้นเมื่อเราเปรียบเทียบความแม่นยำโดยรวมเรากำลังเปรียบเทียบความถูกต้องตามจุดตัดบางอย่าง ความแม่นยำโดยรวมนั้นแตกต่างจากจุดตัดที่แตกต่างกัน


2
ขอบคุณมากสำหรับคำตอบของคุณ! ฉันเข้าใจว่าได้รับความแม่นยำโดยรวมจากจุดตัดบางอย่าง (หรือค่าเกณฑ์) อย่างไรก็ตามมีจุดตัดที่ดีที่สุดจุดหนึ่งคือจุดที่อยู่ใกล้กับมุมบนซ้ายมากที่สุด ตัวอย่างเช่นความแม่นยำโดยรวมของฉันถูกคำนวณโดยใช้จุดตัดที่ดีที่สุดและ AUC สำหรับจุดตัดที่แตกต่างกันทั้งหมด ถ้าเช่นนั้นจะตีความความแม่นยำและ AUC อย่างไร ตัวอย่างเช่นประสิทธิภาพของตัวแยกประเภทสองตัวที่ฉันพูดถึงข้างต้น
Samo Jerom

3
อ้อเข้าใจแล้ว. คุณกำลังเปรียบเทียบความแม่นยำโดยรวมที่ดีที่สุดกับ AUC แต่พวกเขายังคงแนวคิดที่แตกต่างอีกครั้ง AUC คือ P (ทำนายผล TRUE | จริง TRUE) เทียบกับ P (FALSE | FALSE) ในขณะที่ความแม่นยำโดยรวมคือ P = P (TRUE | TRUE | TRUE) * P (FALSE จริง | FALSE) * P ( FALSE จริง) ดังนั้นขึ้นอยู่กับสัดส่วนของมูลค่าที่แท้จริงของชุดข้อมูลของคุณเป็นอย่างมาก ในทางปฏิบัติดูเหมือนว่าความแม่นยำโดยรวมที่ดีที่สุดมักจะเกิดขึ้นเมื่อจุดตัดอยู่ใกล้ P (TRUE จริง)
Vincent

ดังนั้น AUC และความแม่นยำโดยรวมที่ดีที่สุดอาจไม่สอดคล้องกันขึ้นอยู่กับสัดส่วนของมูลค่าที่แท้จริงของชุดข้อมูลของคุณ ในกรณีของคุณดูเหมือนว่าตัวจําแนกหนึ่งจะเน้นที่ความไวมากกว่าขณะที่อีกตัวจะเน้นเฉพาะ และในชุดข้อมูลปัจจุบันของคุณ P (TRUE) ไม่ใช่ 50% ดังนั้นความไวและความจำเพาะจึงมีส่วนทำให้ความแม่นยำโดยรวมแตกต่างกันตามน้ำหนัก ในทางปฏิบัติ ROC สามารถให้ข้อมูลเพิ่มเติมแก่เราได้และเราต้องการเลือกกรณีที่ดีกว่านี้เป็นกรณี ๆ ไป ตัวอย่างเช่นตัวจําแนกจดหมายขยะอาจให้ความสำคัญกับ P (ไม่ใช่จดหมายขยะ | ไม่ใช่จดหมายขยะ) เพื่อป้องกันอีเมลสำคัญที่ขาดหายไป
Vincent

ขอบคุณสำหรับคำตอบ. ตอนนี้มันชัดเจนกว่ามาก แต่ถ้ามีคนต้องการสนทนาเพิ่มเติมกรุณาโพสต์ที่นี่
Samo Jerom

27

ในขณะที่การวัดสถิติทั้งสองมีแนวโน้มที่จะมีความสัมพันธ์กัน แต่พวกเขาวัดคุณภาพที่แตกต่างของตัวจําแนก

AUROC

พื้นที่ใต้เส้นโค้ง (AUC) เท่ากับความน่าจะเป็นที่ตัวจําแนกจะจัดอันดับอินสแตนซ์บวกที่เลือกแบบสุ่มที่สูงกว่าตัวอย่างเชิงลบที่เลือกแบบสุ่ม มันวัดทักษะตัวจําแนกในการจัดอันดับชุดรูปแบบตามระดับที่พวกเขาอยู่ในระดับบวก แต่ไม่ได้กำหนดรูปแบบให้กับชั้นเรียนจริง

ความแม่นยำโดยรวมยังขึ้นอยู่กับความสามารถของลักษณนามในการจัดอันดับรูปแบบ แต่ยังขึ้นอยู่กับความสามารถในการเลือกขีด จำกัด ในการจัดอันดับที่ใช้กำหนดรูปแบบให้กับคลาสบวกหากสูงกว่าขีด จำกัด และระดับลบหากต่ำกว่า

ดังนั้นตัวจําแนกที่มีสถิติ AUROC ที่สูงกว่า (ทุกสิ่งเท่ากัน) น่าจะมีความแม่นยำโดยรวมที่สูงขึ้นเมื่อการจัดอันดับของรูปแบบ (ซึ่งมาตรการ AUROC) เป็นประโยชน์ต่อทั้ง AUROC และความแม่นยำโดยรวม อย่างไรก็ตามหากตัวจําแนกหนึ่งจัดอันดับรูปแบบดี แต่เลือกเกณฑ์ไม่ดีก็สามารถมี AUROC สูง แต่ความถูกต้องโดยรวมไม่ดี

การใช้งานจริง

ในทางปฏิบัติฉันชอบที่จะรวบรวมความแม่นยำโดยรวม AUROC และหากตัวจําแนกประเมินความน่าจะเป็นของการเป็นสมาชิกในชั้นเรียนข้อมูลข้ามเอนโทรปีหรือข้อมูลทำนายผล จากนั้นฉันก็มีการวัดที่วัดความสามารถในการดิบของมันเพื่อทำการจำแนกอย่างหนัก (สมมติว่าค่าการผิดประเภทการบวกและเชิงลบเท็จมีค่าเท่ากันและความถี่ของคลาสในกลุ่มตัวอย่างนั้นเหมือนกับการใช้ในการดำเนินงาน ตัวชี้วัดที่วัดความสามารถในการจัดอันดับรูปแบบและตัวชี้วัดที่วัดว่าการจัดอันดับถูกปรับเทียบเป็นความน่าจะเป็นได้ดีเพียงใด

สำหรับงานหลายอย่างค่าใช้จ่ายในการจำแนกประเภทการดำเนินงานไม่เป็นที่รู้จักหรือเปลี่ยนแปลงหรือความถี่ในการปฏิบัติงานแตกต่างจากในตัวอย่างการฝึกอบรมหรือเป็นตัวแปร ในกรณีดังกล่าวความแม่นยำโดยรวมมักไม่มีความหมายพอสมควรและ AUROC เป็นตัวบ่งชี้ประสิทธิภาพที่ดีกว่าและเราต้องการตัวแยกประเภทที่ให้ผลลัพธ์ที่มีความน่าจะเป็นที่สอบเทียบได้ดีเพื่อให้เราสามารถชดเชยปัญหาเหล่านี้ในการใช้งาน โดยพื้นฐานแล้วตัวชี้วัดตัวใดที่มีความสำคัญขึ้นอยู่กับปัญหาที่เราพยายามแก้ไข


คุณมีการอ้างอิงสำหรับย่อหน้าแรกของคุณหรือไม่?
Bunder

@Bunder ไม่โดยตรง AUROC คือความน่าจะเป็นที่รูปแบบ + ve สุ่มที่เลือกจะถูกจัดอันดับสูงกว่ารูปแบบ -ve ที่เลือกแบบสุ่ม ( en.wikipedia.org/wiki/… ) และด้วยเหตุนี้เป็นการวัดคุณภาพของการจัดอันดับ ตามที่เราต้องการให้ความน่าจะเป็นนั้นสูงที่สุดเท่าที่จะเป็นไปได้
Dikran Marsupial

5

AUC เป็นเมตริกที่มีประโยชน์มากจริง ๆ หรือไม่

ฉันจะบอกว่าค่าใช้จ่ายที่คาดหวังเป็นตัวชี้วัดที่เหมาะสมกว่า

จากนั้นคุณจะมีค่าใช้จ่าย A สำหรับผลบวกเท็จทั้งหมดและค่า B สำหรับค่าลบที่เป็นเท็จทั้งหมด อาจเป็นได้ว่าคลาสอื่นนั้นมีราคาค่อนข้างแพงกว่าชั้นอื่น ๆ แน่นอนถ้าคุณมีค่าใช้จ่ายสำหรับการจัดหมวดหมู่ที่ผิดพลาดในกลุ่มย่อยที่แตกต่างกันก็จะเป็นตัวชี้วัดที่มีประสิทธิภาพยิ่งขึ้น

ด้วยการพล็อตการตัดในแกน x และค่าใช้จ่ายที่คาดหวังในแกน y แล้วคุณจะเห็นว่าจุดตัดค่าใช้จ่ายใดลดลง

อย่างเป็นทางการคุณมีการสูญเสียฟังก์ชั่นการสูญเสีย (ตัด | ข้อมูลค่าใช้จ่าย) ซึ่งคุณพยายามที่จะลด


3
ค่าใช้จ่ายที่คาดหวังสามารถประเมินได้ก็ต่อเมื่อคุณทราบต้นทุนที่เป็นเท็จบวกและลบติดลบซึ่งไม่จำเป็นสำหรับการคำนวณ AUC ซึ่งเป็นสถิติที่ดีที่จะใช้หากไม่ทราบต้นทุนหรือตัวแปร
Dikran Marsupial

4

เช่นเดียวกับคำตอบทั้งหมดที่โพสต์: ROCและaccuracyเป็นแนวคิดพื้นฐานที่แตกต่างกันสองประการ

โดยทั่วไปแล้วให้ROCอธิบายถึงอำนาจการจำแนกของลักษณนามที่เป็นอิสระจากการกระจายคลาสและค่าใช้จ่ายการคาดการณ์ข้อผิดพลาดที่ไม่เท่ากัน

เมทริกไลค์accuracyนั้นคำนวณจากการกระจายคลาสtest datasetหรือcross-validationแต่อัตราส่วนนี้อาจเปลี่ยนแปลงเมื่อคุณใช้ตัวจําแนกกับข้อมูลในชีวิตจริงเนื่องจากการกระจายคลาสที่พื้นฐานมีการเปลี่ยนแปลงหรือไม่ทราบ ในทางกลับกันTP rateและFP rateสิ่งที่ใช้ในการสร้างAUCจะไม่ได้รับผลกระทบจากการเลื่อนระดับการแจกจ่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.