จะเลือกระหว่างคะแนน ROC AUC และ F1 ได้อย่างไร


26

ฉันเพิ่งเสร็จสิ้นการแข่งขัน Kaggle ซึ่งใช้คะแนน roc auc ตามข้อกำหนดการแข่งขัน ก่อนหน้าโครงการนี้ปกติฉันใช้คะแนน f1 เป็นตัวชี้วัดเพื่อวัดประสิทธิภาพของแบบจำลอง ก้าวไปข้างหน้าฉันสงสัยว่าฉันควรเลือกระหว่างสองเมตริกเหล่านี้อย่างไร เมื่อใดควรใช้สิ่งไหนและข้อดีและข้อเสียของพวกเขาคืออะไร

แต่ฉันอ่านบทความที่นี่อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1 แต่มันไม่ได้บอกฉันว่าจะใช้เมื่อไหร่

ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

คำตอบ:


14

ไม่มีมาตรการใดที่ระบุในที่นี้เป็นกฎการให้คะแนนความแม่นยำที่เหมาะสมเช่นกฎที่ปรับให้เหมาะสมโดยรุ่นที่ถูกต้อง พิจารณามาตรการคะแนนหนามและเข้าสู่ระบบตามความน่าจะเป็นเช่นหลอกR2 2 -index (AUROC; สอดคล้องความน่าจะเป็น) ไม่เหมาะสม แต่เป็นสิ่งที่ดีสำหรับการอธิบายรูปแบบเดียว มันไม่ไวพอที่จะใช้สำหรับการเลือกรุ่นหรือเปรียบเทียบแม้จะน้อยกว่าสองเท่า


ขอบคุณสำหรับคำตอบของคุณ Frank! ฉันต้องการคำอธิบายเพิ่มเติมโปรด หากเราสามารถเลือกได้จากคะแนน ROC AUC และ F1 คุณจะเลือกแบบไหนและทำไม ข้อดีและข้อเสียของทั้งคู่คืออะไร
George Liu

2
หากคุณได้รับอนุญาตให้เลือกเฉพาะจาก -index และ F1 คุณจะไม่เถียงกันมากพอ มาตรฐานทองคำคือความน่าจะเป็นบันทึกการลงโทษโอกาสถูกลงโทษหรือเทียบเท่าแบบเบย์ (เช่น DIC) ถัดจากนั้นคือคะแนน Brier
Frank Harrell

2
ดูciteulike.org/user/harrelfe/article/14321176 ; ฉันได้แสดงสิ่งนี้ด้วยแบบจำลองของฉันเอง หากความไม่สมดุลนั้นไม่ได้เกิดจากการตั้งเกินขนาด / การขีดล่างคุณสามารถใช้กฎการให้คะแนนที่เหมาะสมโดยไม่คำนึงถึงความไม่สมดุล
Frank Harrell

1
@ FrankHarrell: ลิงค์นั้นตายแล้วคุณตรวจสอบอีกครั้งได้ไหม?
SiXUlm

13

สูตรการคำนวณ:

  • Precision TP / (TP + FP)
  • เรียกคืน: TP / (TP + FN)
  • คะแนน F1: 2 / (1 / P + 1 / R)
  • ROC / AUC: TPR = TP / (TP + FN), FPR = FP / (FP + TN)

ROC / AUC เป็นเกณฑ์เดียวกันและเส้นโค้ง PR (แม่นยำ - เรียกคืน) (คะแนน F1, ความแม่นยำ, เรียกคืน) ก็เป็นเกณฑ์เดียวกัน

ข้อมูลจริงมีแนวโน้มที่จะมีความไม่สมดุลระหว่างตัวอย่างบวกและลบ ความไม่สมดุลนี้มีผลอย่างมากต่อ PR แต่ไม่ใช่ ROC / AUC

ดังนั้นในโลกแห่งความเป็นจริงเส้นโค้ง PR จึงถูกใช้มากขึ้นเนื่องจากตัวอย่างที่เป็นบวกและลบมีความไม่สม่ำเสมอมาก เส้นโค้ง ROC / AUC ไม่ได้สะท้อนประสิทธิภาพของตัวจําแนก แต่เส้นโค้ง PR สามารถ

หากคุณเพียงแค่ทำการทดลองในรายงานการวิจัยคุณสามารถใช้ ROC ได้ผลการทดสอบจะสวยงามยิ่งขึ้น ในอีกทางหนึ่งการใช้เส้นโค้ง PR ในปัญหาจริงและมีการตีความได้ดี


7

คำตอบข้างต้นเป็นสิ่งที่ดี

แต่ประเด็นที่ฉันต้องการชี้ให้เห็นก็คือ AUC (Area under ROC) มีปัญหาโดยเฉพาะข้อมูลที่ไม่สมดุล (เรียกว่าเบ้อย่างมาก:มีขนาดใหญ่) สถานการณ์ประเภทนี้พบได้บ่อยในการตรวจจับการกระทำการตรวจจับการทุจริตการทำนายการล้มละลาย นั่นคือตัวอย่างเชิงบวกที่คุณสนใจมีอัตราการเกิดค่อนข้างต่ำSkอีW=nอีก.aเสื้อผมโวลต์อีอีxaม.พีล.อีsพีโอsผมเสื้อผมโวลต์อีอีxaม.พีล.อีs

ด้วยข้อมูลที่ไม่สมดุลทำให้ AUC ยังคงให้คุณค่าที่กว้างขวางประมาณ 0.8 อย่างไรก็ตามมันค่อนข้างสูงเนื่องจาก FP ขนาดใหญ่แทนที่จะเป็น TP ขนาดใหญ่ (ค่าบวกจริง)

เช่นตัวอย่างด้านล่าง

TP=155,   FN=182
FP=84049, TN=34088

ดังนั้นเมื่อคุณใช้ AUC เพื่อวัดประสิทธิภาพของตัวจําแนกปัญหาคือการเพิ่ม AUC ไม่ได้สะท้อนตัวจําแนกที่ดีขึ้น มันเป็นผลข้างเคียงของตัวอย่างเชิงลบมากเกินไป คุณสามารถลองชุดข้อมูลของคุณได้

กระดาษหันหน้าไปทางข้อเสนอแนะข้อมูลที่ไม่สมดุลสำหรับการใช้งานของตัวชี้วัดประสิทธิภาพที่พบ "ในขณะที่ ROC ไม่ได้รับผลกระทบจากความเบ้โค้งที่จำได้แม่นยำชี้ให้เห็นว่า ROC อาจปกปิดประสิทธิภาพในบางกรณี" การค้นหาตัวชี้วัดประสิทธิภาพที่ดียังคงเป็นคำถามเปิด คะแนน F1 ทั่วไปอาจช่วยให้

Fβ=(1+β2)พีRอีผมsผมโอnRอีaล.ล.(β2พีRอีผมsผมโอn)+Rอีaล.ล.

โดยที่มีความสำคัญอย่างยิ่งของความแม่นยำเมื่อเปรียบเทียบกับการเรียกคืนβ

จากนั้นคำแนะนำของฉันสำหรับข้อมูลที่ไม่สมดุลนั้นคล้ายกับโพสต์นี้ นอกจากนี้คุณยังสามารถลองตาราง decile ซึ่งสามารถสร้างได้โดยค้นหา "Two-by-Two Classification และ Decile Tables" ในขณะเดียวกันฉันกำลังศึกษาเกี่ยวกับปัญหานี้และจะทำให้ดีขึ้น


หากคุณสนใจเกี่ยวกับประสิทธิภาพของวิธีการคุณควรใช้ ROC เพื่อแสดงประสิทธิภาพการจัดหมวดหมู่ของมัน แต่ถ้าคุณสนใจเพิ่มเติมเกี่ยวกับการทำนายที่แท้จริงของผลบวกจริงคะแนน F1 ก็ยินดีต้อนรับในอุตสาหกรรม
Xiaorui Zhu

2
ในการตั้งค่าธุรกิจจริงค่าใช้จ่ายของผลบวกปลอมและค่าใช้จ่ายของเท็จเชิงลบสามารถประมาณได้ จากนั้นการจำแนกขั้นสุดท้ายควรพิจารณาจากโมเดลความน่าจะเป็นและเกณฑ์การจำแนกที่เลือกเพื่อลดต้นทุนของการจำแนกประเภทที่ผิดพลาด ฉันไม่คิดว่ามีความแม่นยำหรือคะแนน F มีแอปพลิเคชั่นมากมายสำหรับนักวิทยาศาสตร์ด้านข้อมูล
Matthew Drury

ใช่ฉันเห็นด้วยกับขั้นตอนของวิธีการตัดสินใจที่ลดค่าใช้จ่ายของการจัดหมวดหมู่ที่ผิดพลาด wrt cut-off น่าจะเป็นและรูปแบบ และในบางกรณีค่าใช้จ่ายไม่สมมาตรสามารถนำไปใช้กับ FP และ FN แต่จุดของความแม่นยำและคะแนน F คือการตรวจสอบประสิทธิภาพโดยรวมของแบบจำลองหรือเปรียบเทียบประสิทธิภาพระหว่างรุ่นต่างๆ ที่จริงแล้วด้วยข้อมูลในมือในฐานะนักวิทยาศาสตร์ด้านข้อมูลการลดต้นทุนอาจเป็นไปได้เสมอ แต่ฉันอยากรู้ว่านักวิทยาศาสตร์ข้อมูลในทางปฏิบัติต้องการการกระจาย (หรือการเปลี่ยนแปลง) ของวิธีการแก้ปัญหาการตัดสินใจ ฉันอยากรู้ว่าคุณจะแบ่งปันกับฉันได้ไหม
จู้

1
โดยส่วนตัวแล้วฉันมักจะประเมินความดีของความพอดีของแบบจำลองบนพื้นฐานของความน่าจะเป็นตามเงื่อนไขที่คาดการณ์ไว้ ดังนั้นฉันมักจะเปรียบเทียบแบบจำลองโดยใช้กฎการให้คะแนนที่เหมาะสมเช่นการสูญเสียบันทึกใช้การบูตสแตรปเพื่อให้แน่ใจว่าการปรับปรุงไม่ได้มีเสียงรบกวนและอาจเสริมด้วย AUC
แมทธิว Drury

2
ฉันไม่คิดว่าเป็นเรื่องจริง AUC ถูกสร้างขึ้นโดยเฉพาะเพื่อไม่รู้สึกถึงความไม่สมดุลในชั้นเรียนฉันได้ทำการจำลองสถานการณ์อย่างกว้างขวางเกี่ยวกับเรื่องนี้และพบว่าเป็นเรื่องจริง นอกจากนี้เมื่อเปรียบเทียบแบบจำลองพวกเขาควรสร้างชุดข้อมูลที่สุ่มตัวอย่างจากประชากรเดียวกันทำให้เกิดปัญหาใด ๆ กับความไม่สมดุลของคลาส
Matthew Drury

4

การใส่คำง่ายๆเมื่อคุณมีความไม่สมดุลของข้อมูลนั่นคือความแตกต่างระหว่างจำนวนตัวอย่างที่คุณมีสำหรับคลาสบวกและลบนั้นมีขนาดใหญ่คุณควรใช้คะแนน F1 เสมอ มิฉะนั้นคุณสามารถใช้ ROC / AUC curves


คำจำกัดความของ "ความไม่สมดุลของข้อมูล" ของคุณนั้นค่อนข้างจะใช้คะแนน F1 เสมอดังนั้นมันจึงไม่ได้ช่วยอะไรมากนัก บางทีคุณสามารถขยายความในเรื่องนี้หน่อยได้ไหม?
jbowman

ฉันพลาดคำสำคัญมากที่นั่น ... ขอโทษ แก้ไขคำตอบของฉัน แจ้งให้เราทราบหากคุณต้องการคำชี้แจงเพิ่มเติม
balboa

1

สำหรับปัญหาการจำแนกประเภทหลายคลาสการวิเคราะห์และการแสดงภาพ ROC / AUC ไม่ตรงไปตรงมา คุณอาจมองคำถามนี้วิธีการพล็อตเส้นโค้ง ROC ในการจำแนกประเภทมัลติคลาส? . ภายใต้สถานการณ์เช่นนี้การใช้คะแนน F1 อาจเป็นตัวชี้วัดที่ดีกว่า

และคะแนน F1 เป็นตัวเลือกทั่วไปสำหรับปัญหาการดึงข้อมูลและเป็นที่นิยมในการตั้งค่าอุตสาหกรรม นี่คือตัวอย่างที่อธิบายอย่างดีว่าการสร้างโมเดล ML นั้นยาก การปรับใช้พวกเขาในสภาพแวดล้อมทางธุรกิจที่แท้จริงเป็นเรื่องยาก


1

หากวัตถุประสงค์ของการจำแนกประเภทคือการให้คะแนนตามความน่าจะเป็นการดีกว่าที่จะใช้ AUC ซึ่งค่าเฉลี่ยสูงกว่าเกณฑ์ที่เป็นไปได้ทั้งหมด อย่างไรก็ตามถ้าวัตถุประสงค์ของการจัดหมวดหมู่เพียงต้องการจัดหมวดหมู่ระหว่างสองคลาสที่เป็นไปได้และไม่ต้องการว่าแต่ละคลาสจะทำนายโดยโมเดลได้อย่างไรมันมีความเหมาะสมมากกว่าที่จะใช้ F-score โดยใช้เกณฑ์เฉพาะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.