ROC กับเส้นโค้งความแม่นยำและความทรงจำ


159

ฉันเข้าใจความแตกต่างอย่างเป็นทางการระหว่างพวกเขาสิ่งที่ฉันอยากรู้ก็คือเมื่อมันเกี่ยวข้องกับการใช้อย่างใดอย่างหนึ่งกับอีก

  • พวกเขาให้ข้อมูลเชิงลึกที่สมบูรณ์เกี่ยวกับประสิทธิภาพของระบบการจำแนกประเภท / การตรวจจับที่ให้มาหรือไม่?
  • เมื่อใดที่มีเหตุผลที่จะให้พวกเขาทั้งสองพูดในกระดาษ? แทนที่จะเป็นเพียงหนึ่ง?
  • มีคำอธิบายอื่น ๆ (อาจทันสมัยกว่า) ที่จับประเด็นที่เกี่ยวข้องของทั้ง ROC และการเรียกคืนที่แม่นยำสำหรับระบบการจำแนกประเภทหรือไม่?

ฉันสนใจในการโต้แย้งสำหรับทั้งสองกรณีและไบนารี (เช่นเดียวกับทุกกรณี)


7
บทความนี้จะต้องปรากฏในบริบท: biostat.wisc.edu/~page/rocpr.pdf

2
ฉันอาจใช้สิ่งนี้เป็น "ปลั๊ก" เพื่อพูดถึงวิทยานิพนธ์ของฉันที่นี่ ... ในLeitner (2012)ฉันเสนอ "การวัดความแม่นยำเฉลี่ย F" (FAP) (ดูหน้า 65) เป็นค่าเฉลี่ยฮาร์มอนิกของ F- วัดและความแม่นยำเฉลี่ย นั่นคือการรวมกันของการวัดการประเมินผลที่กำหนดไว้กับการวัดการประเมินการจัดอันดับ ในวิทยานิพนธ์ฉันแสดงให้เห็นว่าการเพิ่มคะแนน FAP ในชุดการฝึกอบรมสามารถใช้เพื่อระบุการตัดยอดที่ดีที่สุดเพื่อกำหนดภารกิจการดึงข้อมูลที่ไม่ จำกัด ขอบเขต (โดยใช้การรัน BioCreative 100s!)
fnl

1
นี่เป็นอีกการสนทนาที่ดีเกี่ยวกับเส้นโค้ง AUC-ROC และ PR ในชุดข้อมูลที่ไม่สมดุล มันมีข้อสรุปเช่นเดียวกับสิ่งที่ dsimcha พูด เมื่อคุณสนใจเพิ่มเติมเกี่ยวกับกรณีที่หายากคุณควรใช้การประชาสัมพันธ์
YC

คำตอบ:


207

ความแตกต่างที่สำคัญคือว่า ROC curves จะเหมือนกันไม่ว่าค่าความน่าจะเป็นพื้นฐานจะเป็นเท่าไร แต่ PR curves อาจมีประโยชน์มากกว่าในการฝึกสำหรับปัญหาแบบเข็มในกองหญ้าแห้งหรือปัญหาที่ระดับ "บวก" น่าสนใจมากกว่าเชิงลบ ชั้น

เพื่อแสดงสิ่งนี้ก่อนอื่นเรามาเริ่มด้วยวิธีที่ดีมากในการกำหนดความแม่นยำการเรียกคืนและความเฉพาะเจาะจง สมมติคุณมีระดับ "เชิงบวก" เรียกว่า 1 และระดับ "เชิงลบ" เรียก 0. เป็นประมาณการของคุณของฉลากชั้นจริงYจากนั้น: สิ่งสำคัญที่ควรทราบคือความไว / การเรียกคืนและความเฉพาะเจาะจง ซึ่งทำขึ้นในโค้งร็อคที่มีความน่าจะเป็นเครื่องปรับอากาศบนฉลากชั้นจริง ดังนั้นพวกเขาจะเหมือนกันโดยไม่คำนึงว่าคืออะไร ความแม่นยำน่าจะเป็นเงื่อนไขY^Y

Precision=P(Y=1|Y^=1)Recall=Sensitivity=P(Y^=1|Y=1)Specificity=P(Y^=0|Y=0)
P(Y=1)ประมาณการของคุณของฉลากชั้นเรียนจึงจะแตกต่างกันไปถ้าคุณพยายามที่ลักษณนามของคุณในประชากรที่แตกต่างกันด้วยพื้นฐานที่แตกต่างกัน1) อย่างไรก็ตามมันอาจมีประโยชน์มากขึ้นในทางปฏิบัติถ้าคุณสนใจประชากรเพียงคนเดียวที่มีความน่าจะเป็นที่รู้จักและระดับ "บวก" น่าสนใจกว่าคลาส "ลบ" (ความแม่นยำ IIRC เป็นที่นิยมในเขตการดึงเอกสารซึ่งเป็นกรณีนี้) เพราะนี่เป็นคำตอบของคำถามโดยตรงว่า "ความน่าจะเป็นที่จะเกิดการโจมตีครั้งนี้จริงหรือไม่เพราะตัวจําแนกของฉันบอกว่ามันคืออะไร"P(Y=1)

ที่น่าสนใจตามทฤษฎีของ Bayes คุณสามารถหากรณีที่ความจำเพาะเจาะจงสูงมากและมีความแม่นยำต่ำมากในเวลาเดียวกัน สิ่งที่คุณต้องทำคือสมมติว่าใกล้เคียงกับศูนย์มาก ในทางปฏิบัติฉันได้พัฒนาตัวแยกประเภทหลายตัวด้วยลักษณะการทำงานนี้เมื่อค้นหาเข็มในกองลำดับดีเอ็นเอP(Y=1)

IMHO เมื่อคุณเขียนบทความคุณควรระบุว่าจะให้เส้นโค้งใดตอบคำถามที่คุณต้องการคำตอบ (หรือวิธีใดก็ตามที่เป็นประโยชน์ต่อวิธีการของคุณมากกว่าถ้าคุณดูถูก) หากคำถามของคุณคือ: "ผลบวกจากตัวจําแนกของฉันมีความหมายอย่างไรเมื่อพิจารณาถึงความน่าจะเป็นพื้นฐานของปัญหาของฉัน " ให้ใช้เส้นโค้งการประชาสัมพันธ์ หากคำถามของคุณคือ "ลักษณนามลักษณนามนี้สามารถทำงานโดยทั่วไปได้ดีแค่ไหนในความหลากหลายของความน่าจะเป็นพื้นฐานที่ต่างกัน " ไปกับ ROC curve


10
นั่นเป็นคำอธิบายที่น่าอัศจรรย์!
Amelio Vazquez-Reina

5
+1 ความเข้าใจที่ยอดเยี่ยมเกี่ยวกับการตีความความน่าจะเป็นของความแม่นยำการเรียกคืนและความเฉพาะเจาะจง
Zhubarb

2
คำตอบคืออะไร! หวังว่าฉันจะได้คะแนนสูงสุดสองครั้ง
ผู้ชายลอนดอน

6
ในกรณีที่ไม่ชัดเจนจากความคิดเห็นก่อนหน้าของฉัน: คำตอบนี้ผิดเช่นเดียวกับ ROC curves ที่ใช้ความเฉพาะเจาะจง ดูเช่นการวิเคราะห์ ROC เบื้องต้นซึ่งมีข้อบกพร่องตามที่ระบุไว้ในคำตอบของฉัน: "โดเมนโลกแห่งความจริงจำนวนมากถูกครอบงำโดยอินสแตนซ์เชิงลบจำนวนมากดังนั้นประสิทธิภาพในด้านซ้ายสุดของกราฟ ROC กลายเป็น น่าสนใจมากขึ้น."
fnl

2
+0.5 @fnl ในขณะที่ไม่ผิดอย่างชัดเจนฉันคิดว่าคำตอบหายไปจากจุดของคำถาม การตีความความน่าจะเป็นยินดีมาก แต่ก็เป็นสิ่งที่สงสัยเกี่ยวกับคำถามหลัก นอกจากนี้ฉันไม่สามารถหาตัวอย่างที่เหมือนจริงทั่วไปได้ที่คำถาม: " ผลลัพธ์ที่เป็นบวกจากตัวจําแนกของฉันมีความหมายอย่างไรเนื่องจากความน่าจะเป็นพื้นฐานของปัญหาของฉัน " ไม่เหมาะสม "การทั่วไปมุมมอง" ของร็อค-AUC เป็นเพียงเลือนเกินไป (เป็นไปโดยไม่บอกว่าไม่ควรใช้กับมูลค่าของใบหน้าเพื่อสร้างแบบจำลองสุดท้าย)
usεr11852

26

นี่คือข้อสรุปจากบทความโดย Davis & Goadrich อธิบายความสัมพันธ์ระหว่าง ROC และ PR space พวกเขาตอบคำถามสองข้อแรก:

ก่อนอื่นสำหรับชุดข้อมูลใด ๆ เส้นโค้ง ROC และเส้นโค้ง PR สำหรับอัลกอริทึมที่กำหนดมีจุดเดียวกัน ความเท่าเทียมกันนี้นำไปสู่ทฤษฎีบทที่น่าประหลาดใจที่เส้นโค้งครอบงำในพื้นที่ ROC ถ้าหากมันครอบงำในพื้นที่ PR เท่านั้น ประการที่สองเป็นข้อพิสูจน์ถึงทฤษฎีที่เราแสดงให้เห็นการดำรงอยู่ของพื้นที่ PR อนาล็อกเพื่อฮัลล์นูนในพื้นที่ ROC ซึ่งเราเรียกว่าเส้นโค้ง PR ทำได้ อย่างน่าทึ่งเมื่อสร้าง PR PR ที่ทำได้ที่เป็นไปได้จะละทิ้งจุดที่เหมือนกันซึ่งได้รับจากฮัลล์นูนในพื้นที่ ROC ดังนั้นเราสามารถคำนวณเส้นโค้งการประชาสัมพันธ์ได้อย่างมีประสิทธิภาพ [... ] สุดท้ายเราแสดงให้เห็นว่าอัลกอริทึมที่เพิ่มประสิทธิภาพพื้นที่ภายใต้เส้นโค้ง ROC ไม่รับประกันว่าจะเพิ่มประสิทธิภาพพื้นที่ภายใต้เส้นโค้ง PR

กล่าวอีกนัยหนึ่งตามหลักการ ROC และ PR นั้นมีความเหมาะสมพอ ๆ กันในการเปรียบเทียบผลลัพธ์ แต่สำหรับกรณีตัวอย่างที่เกิดจากการยิงผิดพลาด 20 ครั้งและปี 1980 พวกเขาแสดงให้เห็นว่าความแตกต่างนั้นค่อนข้างรุนแรงดังที่แสดงในรูปที่ 11 และ 12

รูปที่ 11 และ 12 จาก Davis และ Goadrich

ผล / เส้นโค้ง (I) อธิบายผลลัพธ์ที่ 10 จาก 20 ครั้งอยู่ในสิบอันดับแรกและ 10 อันดับที่เหลือจะกระจายไปทั่ว 1500 อันดับแรก Resut (II) อธิบายผลลัพธ์ที่การกระจาย 20 ครั้งถูกกระจายอย่างสม่ำเสมอใน 500 อันดับแรก (จาก 2000) ดังนั้นในกรณีที่ผลลัพธ์ "รูปร่าง" เช่น (I) เป็นที่นิยมมากกว่าการตั้งค่านี้สามารถแยกความแตกต่างได้อย่างชัดเจนใน PR-space ในขณะที่ AUC ROC ของผลลัพธ์ทั้งสองมีค่าเกือบเท่ากัน


1
กราฟเหล่านี้ไม่ได้สะท้อน (แยกส่วน) สถานการณ์ที่อธิบายซึ่งจะแสดงขั้นตอนใน ROC curves ทุกครั้งที่พบการเข้าชม (หลังจาก 10 ครั้งแรกสำหรับเส้นโค้ง I) ROCCH จะมีลักษณะเช่นนี้กับ Convex Hull ในทำนองเดียวกันสำหรับ PR ความแม่นยำจะชนเป็นรอยทุกครั้งที่พบการถูกโจมตีจากนั้นจะสลายตัวในช่วงการพลาดเริ่มต้นจาก (0,0) สำหรับสิ่งใดที่คาดการณ์ไว้ 0) - เส้นโค้ง II ดังที่แสดงไว้คือความแม่นยำสูงสุดไม่ใช่ความแม่นยำในแต่ละระดับ (และจากการเรียกคืน)
David MW Powers

1
นี่คือรูปที่ 7 ในเวอร์ชันของกระดาษที่ฉันพบ กระดาษสอดแทรกเส้นโค้ง PR โดยใช้เส้นโค้ง ROC โปรดทราบว่าผลลัพธ์การครอบงำขึ้นอยู่กับข้อสันนิษฐานว่าการเรียกคืนนั้นไม่ใช่ศูนย์ซึ่งไม่ใช่กรณีจนกว่าจะพบการโจมตีครั้งแรกและความแม่นยำ (ตามที่กำหนดในกระดาษ) นั้นไม่ได้กำหนดอย่างเป็นทางการ (0/0) จนกระทั่งถึงตอนนั้น
David MW Powers

1
ใช่การขาดการแบ่งแยกที่ถูกต้องเป็นปัญหา (แม้ว่าพล็อตเช่นนี้อาจเกิดขึ้นหากเฉลี่ยต่อจำนวนการรันจำนวนมาก) อย่างไรก็ตามผลลัพธ์ของกระดาษนั้นมีความหมายน้อยกว่าที่คุณคาดหวังเนื่องจากปัญหาไม่ได้กำหนดไว้และไม่สำคัญเท่าที่คุณคาดหวังเมื่อคุณเพิ่งเข้าใจผลลัพธ์ในแง่ของการลดขนาด ฉันจะไม่ใช้การประชาสัมพันธ์ แต่บางครั้งฉันจะขยายสู่ ROC หรือใช้ PN เท่า
David MW Powers

1
อันดับแรกกราฟของรูปที่ 7 (11 vs 12) ไม่เกี่ยวข้อง - ไม่ใช่กราฟที่ก้าวสำหรับระบบที่ผ่านการฝึกอบรม (เป็นตัวอย่างเชิงบวกที่เกินขีด จำกัด การลดลง) แต่สอดคล้องกับการ จำกัด ค่าเฉลี่ยตามจำนวนของระบบที่แตกต่างกัน ความแม่นยำที่สองและการเรียกคืนถูกลบเลือนสำหรับการค้นหาเว็บและทั้งคู่โดยสิ้นเชิง IGNORE จำนวนปลอม (จริง ๆ ) จำนวนจริง (Prec = TP / PP และ Rec = TP / RP) กราฟความแม่นยำและการเรียกคืนที่สามเป็นเพียงการแสดงอคติซึ่งกันและกัน (1 / PP) เทียบกับความชุกซึ่งกันและกัน (1 / RP) สำหรับระดับ TP เฉพาะ (ถ้าคุณหยุดการค้นหาเว็บที่การค้นหา TP ที่ถูกต้อง)
David MW Powers

5
ตกลงดังนั้นหลังจากเคลียร์ข้อสงสัยทั้งหมดของฉันฉันคิดว่ามันเป็นสิ่งจำเป็นที่จะแนะนำผู้อ่านว่าฉันเชื่อว่า @DavidMWPowers คำตอบควรเป็นที่ต้องการมากกว่าของฉัน
fnl

12

มีความเข้าใจผิดมากมายเกี่ยวกับการประเมินผล ส่วนหนึ่งมาจากวิธีการเรียนรู้ของเครื่องในการพยายามเพิ่มประสิทธิภาพอัลกอริทึมบนชุดข้อมูลโดยไม่สนใจข้อมูลจริง

ในบริบททางการแพทย์มันเกี่ยวกับผลลัพธ์ของโลกแห่งความจริง - ตัวอย่างเช่นคุณมีกี่คนที่คุณรอดพ้นจากการตาย ในบริบททางการแพทย์ Sensitivity (TPR) ถูกใช้เพื่อดูจำนวนกรณีบวกถูกเลือกอย่างถูกต้อง (ลดสัดส่วนที่ไม่ถูกต้องเป็น false negatives = FNR) ในขณะที่ Specificity (TNR) ถูกใช้เพื่อดูจำนวนกรณีลบที่ถูกต้อง กำจัด (การลดสัดส่วนที่พบว่าเป็นผลบวกปลอม = FPR) โรคบางชนิดมีความชุกของหนึ่งในล้าน ดังนั้นหากคุณทำนายเชิงลบอยู่เสมอคุณจะมีความแม่นยำเท่ากับ 0.999999 - สิ่งนี้เกิดขึ้นได้จากผู้เรียน ZeroR ธรรมดาที่ทำนายชั้นเรียนได้ง่ายที่สุด หากเราพิจารณาการเรียกคืนและความแม่นยำสำหรับการทำนายว่าคุณปราศจากโรคเราจะมีการเรียกคืน = 1 และความแม่นยำ = 0.999999 สำหรับ ZeroR แน่นอน, หากคุณย้อนกลับ + ve และ -ve และพยายามทำนายว่าบุคคลที่เป็นโรคด้วย ZeroR คุณจะได้รับ Recall = 0 และ Precision = undef (เนื่องจากคุณไม่ได้คาดการณ์เชิงบวก แต่บ่อยครั้งที่คนกำหนดความแม่นยำเป็น 0 ในเรื่องนี้ กรณี). โปรดทราบว่า Recall (+ ve Recall) และ Inverse Recall (-ve Recall) และ TPR, FPR, TNR & FNR ที่เกี่ยวข้องจะถูกกำหนดไว้เสมอเนื่องจากเราแก้ปัญหาเพียงเพราะเรารู้ว่ามีสองคลาสเพื่อแยกแยะและเราจงใจให้ ตัวอย่างของแต่ละ

สังเกตความแตกต่างอย่างมากระหว่างโรคมะเร็งที่หายไปในบริบททางการแพทย์ (มีคนเสียชีวิตและคุณถูกฟ้อง) และไม่มีเอกสารในการค้นเว็บ (โอกาสที่ดีคนหนึ่งจะอ้างอิงกับมันถ้าสำคัญ) ในทั้งสองกรณีข้อผิดพลาดเหล่านี้มีลักษณะเป็นเชิงลบที่ผิดพลาดเมื่อเทียบกับประชากรจำนวนมากที่มีเชิงลบ ในกรณีการค้นหาเว็บเราจะได้รับจำนวนประชากรเชิงลบที่แท้จริงโดยอัตโนมัติเพียงเพราะเราแสดงผลลัพธ์เพียงเล็กน้อย (เช่น 10 หรือ 100) และการไม่แสดงผลไม่ควรเป็นการคาดการณ์เชิงลบ (อาจเป็น 101 ) ในขณะที่ในกรณีทดสอบมะเร็งเรามีผลลัพธ์สำหรับทุกคนและไม่เหมือนกับการค้นหาเว็บเราควบคุมระดับลบ (อัตรา) เท็จอย่างแข็งขัน

ดังนั้น ROC จึงสำรวจการแลกเปลี่ยนระหว่างผลบวกที่แท้จริง (กับเชิงลบที่ผิดเป็นสัดส่วนของผลบวกที่แท้จริง) และผลบวกที่ผิดพลาด (เปรียบเทียบกับผลกระทบเชิงลบที่แท้จริงตามสัดส่วนของผลกระทบเชิงลบที่แท้จริง) มันเทียบเท่ากับการเปรียบเทียบ Sensitivity (+ ve Recall) และ Specificity (-ve Recall) นอกจากนี้ยังมีกราฟ PN ซึ่งมีลักษณะเดียวกันกับที่เราพล็อต TP เทียบกับ FP แทนที่จะเป็น TPR เทียบกับ FPR - แต่เนื่องจากเราสร้างพล็อตสแควร์ความแตกต่างเพียงอย่างเดียวคือตัวเลขที่เราใส่ลงบนตาชั่ง พวกมันเกี่ยวข้องกับค่าคงที่ TPR = TP / RP, FPR = TP / RN โดยที่ RP = TP + FN และ RN = FN + FP คือจำนวนของผลบวกจริงและเชิงลบจริงในชุดข้อมูลและอคติตรงกันข้าม PP = TP + FP และ PN = TN + FN คือจำนวนครั้งที่เราทำนายผลบวกหรือลบทำนาย โปรดทราบว่าเราเรียก rp = RP / N และ rn = RN / N ความชุกของ resp บวก ลบและ pp = PP / N และ rp = RP / N อคติต่อการตอบรับเชิงบวก

หากเราหาผลรวมหรือความอ่อนไหวและความจำเพาะโดยเฉพาะหรือดูที่พื้นที่ภายใต้กราฟการแลกเปลี่ยน (เทียบเท่ากับ ROC เพียงแค่ย้อนกลับแกน x) เราจะได้รับผลลัพธ์เดียวกันหากเราแลกเปลี่ยนคลาสที่ + ve และ + ได้ สิ่งนี้ไม่เป็นความจริงสำหรับความแม่นยำและการเรียกคืน (ดังที่แสดงไว้ด้านบนพร้อมการพยากรณ์โรคโดย ZeroR) ความเด็ดขาดนี้เป็นข้อบกพร่องที่สำคัญของความแม่นยำ, การเรียกคืนและค่าเฉลี่ยของพวกเขา (ไม่ว่าจะเป็นคณิตศาสตร์, เรขาคณิตหรือฮาร์โมนิ) และกราฟการแลกเปลี่ยน

แผนภูมิ PR, PN, ROC, LIFT และแผนภูมิอื่น ๆ จะถูกพล็อตเมื่อพารามิเตอร์ของระบบมีการเปลี่ยนแปลง พล็อตแบบคลาสสิกนี้มีจุดสำหรับแต่ละระบบที่ได้รับการฝึกฝนบ่อยครั้งที่มีการเพิ่มหรือลดขีด จำกัด เพื่อเปลี่ยนจุดที่อินสแตนซ์ถูกจัดประเภทเป็นบวกและลบ

บางครั้งคะแนนพล็อตอาจเป็นค่าเฉลี่ยเหนือ (เปลี่ยนพารามิเตอร์ / เกณฑ์ / อัลกอริธึมของ) ชุดของระบบที่ได้รับการฝึกอบรมในลักษณะเดียวกัน (แต่ใช้ตัวเลขสุ่มหรือสุ่มตัวอย่างหรือลำดับที่แตกต่างกัน) สิ่งเหล่านี้เป็นโครงสร้างทางทฤษฎีที่บอกเราเกี่ยวกับพฤติกรรมโดยเฉลี่ยของระบบมากกว่าประสิทธิภาพของพวกเขาในปัญหาเฉพาะ แผนภูมิ tradeoff มีจุดประสงค์เพื่อช่วยเราเลือกจุดปฏิบัติการที่ถูกต้องสำหรับแอปพลิเคชันเฉพาะ (ชุดข้อมูลและวิธีการ) และนี่คือที่ ROC ได้รับชื่อจาก (ลักษณะการดำเนินงานของผู้รับมีวัตถุประสงค์เพื่อเพิ่มข้อมูลที่ได้รับ

ให้เราพิจารณาสิ่งที่ Recall หรือ TPR หรือ TP สามารถวางแผนได้

TP vs FP (PN) - ดูเหมือนกับพล็อต ROC เหมือนกับที่มีตัวเลขต่างกัน

TPR vs FPR (ROC) - TPR เทียบกับ FPR โดยที่ AUC จะไม่เปลี่ยนแปลงหากมีการย้อนกลับ +/-

TPR vs TNR (alt ROC) - ภาพสะท้อนของ ROC เป็น TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X incs สำหรับตัวอย่างบวกและลบ (การยืดแบบไม่เชิงเส้น)

TPR กับ pp (alt LIFT) - ดูเหมือนกับ LIFT เพียงแค่มีตัวเลขต่างกัน

TP เทียบกับ 1 / PP - คล้ายกับ LIFT มาก (แต่กลับด้านด้วยยืดไม่เชิงเส้น)

TPR เทียบกับ 1 / PP - ดูเหมือนกับ TP กับ 1 / PP (ตัวเลขต่างกันในแกน y)

TP เทียบกับ TP / PP - คล้ายกัน แต่มีการขยายแกน x (TP = X -> TP = X * TP)

TPR กับ TP / PP - มีลักษณะเหมือนกัน แต่มีตัวเลขต่างกันบนแกน

สุดท้ายคือ Recall vs Precision!

หมายเหตุสำหรับกราฟเหล่านี้เส้นโค้งใด ๆ ที่มีอิทธิพลเหนือเส้นโค้งอื่น ๆ (ดีกว่าหรืออย่างน้อยก็สูงที่สุดในทุกจุด) จะยังคงครองหลังจากการเปลี่ยนแปลงเหล่านี้ เนื่องจากการครอบครองหมายถึง "อย่างน้อยที่สุด" ในทุกจุดโค้งที่สูงขึ้นจึงมี "อย่างน้อยที่สุด" ในพื้นที่ภายใต้ Curve (AUC) เนื่องจากมันรวมถึงพื้นที่ระหว่างเส้นโค้งด้วย การย้อนกลับไม่เป็นความจริง: หากเส้นโค้งตัดกันซึ่งต่างจากการสัมผัสไม่มีการครอบงำ แต่ AUC หนึ่งสามารถยังคงใหญ่กว่าอีก

การแปลงทั้งหมดทำขึ้นเพื่อสะท้อนและ / หรือซูมในวิธีที่ต่างกัน (ไม่ใช่แบบเส้นตรง) ไปยังส่วนเฉพาะของกราฟ ROC หรือ PN อย่างไรก็ตามมีเพียง ROC เท่านั้นที่มีการตีความที่ดีของ Area ภายใต้ Curve (ความน่าจะเป็นที่ค่าบวกนั้นอยู่ในอันดับที่สูงกว่าค่าลบ - สถิติ Mann-Whitney U) และระยะทางเหนือ Curve (ความน่าจะเป็นที่การตัดสินใจอย่างชาญฉลาด สถิติในรูปแบบของความไม่เป็นคู่

โดยทั่วไปไม่จำเป็นต้องใช้เส้นโค้งการแลกเปลี่ยน PR และคุณสามารถซูมเข้าสู่เส้นโค้ง ROC ได้หากต้องการรายละเอียด เส้นโค้ง ROC มีคุณสมบัติพิเศษที่เส้นทแยงมุม (TPR = FPR) แสดงถึงโอกาสที่ระยะทางเหนือเส้นโอกาส (DAC) แสดงถึงความเป็นไปได้หรือความน่าจะเป็นของการตัดสินใจอย่างชาญฉลาดและพื้นที่ใต้เส้นโค้ง (AUC) หมายถึงอันดับหรือ ความน่าจะเป็นของการจัดอันดับคู่ที่ถูกต้อง ผลลัพธ์เหล่านี้ไม่ถือเป็นส่วนโค้ง PR และ AUC จะถูกบิดเบือนสำหรับ Recall หรือ TPR ที่สูงขึ้นตามที่อธิบายไว้ข้างต้น PR AUC ที่ใหญ่กว่าไม่ได้ แปลว่า ROC AUC นั้นใหญ่กว่าและไม่ได้เพิ่มการจัดอันดับ (ความน่าจะเป็นของการจัดอันดับ +/- คู่ที่ถูกต้องทำนาย - กล่าวคือความถี่ที่มันทำนาย + ves ด้านบน -ve) และไม่เพิ่มนัย Informedness (ความน่าจะเป็น การคาดเดาแบบสุ่ม - ได้แก่ บ่อยครั้งที่มันรู้ว่าสิ่งที่มันทำเมื่อมันทำให้การทำนาย)

ขออภัย - ไม่มีกราฟ! หากใครต้องการเพิ่มกราฟเพื่อแสดงให้เห็นถึงการเปลี่ยนแปลงข้างต้นนั่นจะดีมาก! ฉันมีเอกสารบางส่วนเกี่ยวกับ ROC, LIFT, BIRD, Kappa, F-measure, Informedness และอื่น ๆ แต่พวกเขาไม่ได้นำเสนอในลักษณะนี้แม้ว่าจะมีภาพประกอบของ ROC กับ LIFT กับ BIRD vs RP ในhttps : //arxiv.org/pdf/1505.00401.pdf

UPDATE: เพื่อหลีกเลี่ยงการพยายามให้คำอธิบายที่ครบถ้วนในคำตอบหรือความคิดเห็นที่มากเกินไปต่อไปนี้คือเอกสารบางส่วนของฉัน "ค้นหา" ปัญหากับ Precision vs Recall tradeoffs inc F1 ได้รับ Informedness และจากนั้น "สำรวจ" ความสัมพันธ์กับ ROC, Kappa, Significance, DeltaP, AUC ฯลฯ นี่เป็นปัญหาที่นักเรียนคนหนึ่งของฉันชนเข้ากับเมื่อ 20 ปีก่อน (Entwisle) และอื่น ๆ อีกมากมายตั้งแต่พบว่าตัวอย่างของโลกแห่งความจริง ของพวกเขาเองที่มีหลักฐานเชิงประจักษ์ว่าวิธี R / P / F / A ส่งผู้เรียนไปทางที่ผิดในขณะที่ Informedness (หรือ Kappa หรือความสัมพันธ์ในกรณีที่เหมาะสม) ส่งพวกเขาไปทางขวา - ตอนนี้ผ่านหลายสิบสาขา นอกจากนี้ยังมีเอกสารที่ดีและเกี่ยวข้องมากมายโดยผู้เขียนคนอื่น ๆ ใน Kappa และ ROC แต่เมื่อคุณใช้ Kappas กับ ROC AUC เมื่อเทียบกับ ROC ส่วนสูง (Informedness or Youden ' s J) ได้รับการอธิบายในรายงานประจำปี 2555 ที่ฉันเขียน (เอกสารสำคัญหลายเรื่องของผู้อื่นอ้างถึงในเอกสารเหล่านั้น) Bookmaker 2003 กระดาษเกิดขึ้นเป็นครั้งแรกสำหรับสูตร Informedness สำหรับกรณีหลายระดับ กระดาษ 2013 ได้รับ Adaboost รุ่นหลายคลาสที่ดัดแปลงเพื่อเพิ่มประสิทธิภาพ Informedness (พร้อมลิงก์ไปยัง Weka ที่ปรับเปลี่ยนซึ่งโฮสต์และใช้งาน)

อ้างอิง

1998 การใช้สถิติในการประเมินผลตัวแยกวิเคราะห์ NLP J Entwisle, DMW Powers - การดำเนินการประชุมร่วมกันเกี่ยวกับวิธีการใหม่ในการประมวลผลภาษา: 215-224 https://dl.acm.org/citation.cfm?id=1603935 อ้างโดย 15

Recall & Precision 2003 เปรียบเทียบกับ Bookmaker พลัง DMW - การประชุมระหว่างประเทศเกี่ยวกับความรู้ความเข้าใจวิทยาศาสตร์: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 อ้างโดย 46

การประเมินผลปี 2554: จากความแม่นยำการเรียกคืนและการวัดค่า F ถึง ROC ความรู้แจ้งความชัดเจนและสหสัมพันธ์ พลัง DMW - วารสารเทคโนโลยีการเรียนรู้ของเครื่อง 2 (1): 37-63 http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 อ้างโดย 1749

2012 ปัญหากับคัปปา พลัง DMW - การประชุมวิชาการ ACL แห่งยุโรปครั้งที่ 13: 345-355 https://dl.acm.org/citation.cfm?id=2380859 อ้างโดย 63

2555 ROC-ConCert: การวัดความสอดคล้องและความแน่นอนของ ROC พลัง DMW - Spring Congress ทางวิศวกรรมและเทคโนโลยี (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf อ้างโดย 5

2013 ADABOOK & MULTIBOOK:: การส่งเสริมการปรับด้วยการแก้ไขโอกาส DMW Powers- ICINCO การประชุมระหว่างประเทศเกี่ยวกับสารสนเทศในการควบคุมระบบอัตโนมัติและหุ่นยนต์ http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

อ้างโดย 4


> "พื้นที่ใต้เส้นโค้งหมาย Rankedness หรือความน่าจะเป็นของการจัดอันดับจากจำนวนที่ถูกต้อง" ผมคิดว่าเป็นสิ่งที่เราไม่เห็นด้วย - ร็อคเพียงแสดงให้เห็นถึงคุณภาพของการจัดอันดับในการวางแผน อย่างไรก็ตามด้วย AUC PR เป็นหมายเลขเดียวที่บอกฉันทันทีว่าการจัดอันดับใดที่ดีกว่า (เช่นผลลัพธ์นั้นฉันจึงเป็นที่นิยมมากกว่าผลลัพธ์ II) AUC ROC ไม่มีคุณสมบัตินี้
fnl

ผลการอ้างอิง fnl หมายถึงเมื่อมีการกำหนดถ้าเส้นโค้งหนึ่งครอบงำใน ROC มันทำในการประชาสัมพันธ์และในทางกลับกันและนี่หมายความว่ามันมีพื้นที่ที่สูงขึ้นในทั้งสองและทำให้ไม่มีความแตกต่างเชิงคุณภาพระหว่าง ROC และ PR AUC คำพูดเกี่ยวกับการจัดอันดับ (Mann-Whitney U) เป็นความน่าจะเป็นเชิงปริมาณที่ได้รับการยอมรับเป็นอย่างดี (ส่วนหนึ่งของการทดสอบนัยสำคัญ) ซึ่งได้รับการแนะนำค่อนข้างเป็นอิสระจาก ROC แต่ภายหลังพบว่าเป็น ROC AUC เดิมมีการกำหนด Informedness อย่างอิสระและภายหลังได้รับการพิสูจน์แล้วว่าสอดคล้องกับความสูงของจุดปฏิบัติการของ ROC PR ไม่มีผลลัพธ์ดังกล่าว
David MW Powers

1
อย่างที่ฉันได้พูดไปก่อนหน้านี้เป็นเพียงเรื่องของการปรับภายใต้เงื่อนไขการครอบงำ ("ใหญ่กว่า" เพราะคูณด้วยจำนวนมากตามที่ฉันอธิบายในรายละเอียด) แต่ภายใต้เงื่อนไขที่ไม่ใช่การปกครอง AUC PR นั้นทำให้เข้าใจผิดและ AUC ROC ที่มีการตีความความน่าจะเป็นที่เหมาะสม (Mann-Whitney U หรือ Rankedness) โดยมีจุดปฏิบัติการเดียวที่สอดคล้องกับ Gini (หรือเทียบเท่า J หรือ Youed's Informedness หลังจากปรับสเกล)
David MW Powers

1
ถ้าเราพิจารณาจุดปฏิบัติการเดี่ยว (SOC) AUC เพื่อความง่ายแล้ว Gini Coefficient = AUC = (TP / RP + TN / RN) / 2 และ Informedness = Youden J = TP / RP + TN / RN - 1 = ความไว + ความเฉพาะเจาะจง -1 = TPR + TNF -1 = เรียกคืน + Inverse Recall - 1 ฯลฯ การขยายให้ใหญ่สุดนั้นเทียบเท่ากัน แต่สิ่งหลังคือความน่าจะเป็นของการตัดสินใจแบบมีข้อมูล หากทั้ง RN และ TN ไปที่อนันต์กับ TN >> FP ดังนั้น TN / RN -> 1 และยกเลิกดังนั้น Informedness = เรียกคืนในกรณีที่คุณอ้างถึง ถ้าคลาสที่ใหญ่กว่าคือ RP และ TP >> FN ดังนั้น TP / RP -> 1 และ Informedness = Inverse Recall ดูอ้างอิง
David MW Powers

1
นี่เป็นคำตอบที่เป็นประโยชน์มากสำหรับ David Powers แต่ยกโทษให้ความไม่รู้ของฉันเมื่อคุณพูดว่า 'โดยทั่วไปไม่จำเป็นต้องใช้เส้นโค้งการแลกเปลี่ยน PR และคุณสามารถซูมเข้าไปในเส้นโค้ง ROC ถ้าต้องการรายละเอียด' ฉันจะทำอย่างนั้นได้อย่างไร รายละเอียดเกี่ยวกับสิ่งที่คุณหมายถึงอะไร นี่หมายความว่าฉันสามารถใช้ ROC curve ในกรณีที่ไม่สมดุลอย่างรุนแรงได้หรือไม่? 'การให้ FPR หรือ TPR มีน้ำหนักมากขึ้นจะทำให้ได้คะแนน AUC ROC ที่มีความแตกต่างของผลลัพธ์ที่มากขึ้น ฉันจะทำเช่นนี้กับ ROC ของฉันได้อย่างไร
คริสโตเฟอร์จอห์น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.