เหตุใด AUC ที่สูงขึ้นสำหรับลักษณนามที่มีความแม่นยำน้อยกว่าตัวที่มีความแม่นยำมากกว่า


29

ฉันมีตัวจําแนกสองตัว

  • A: เครือข่าย Bayesian ที่ไร้เดียงสา
  • B: ต้นไม้ (เชื่อมต่อโดยลำพัง) เครือข่ายแบบเบย์

ในแง่ของความแม่นยำและมาตรการอื่น ๆ A ทำงานค่อนข้างแย่กว่า B. อย่างไรก็ตามเมื่อฉันใช้ R แพ็คเกจ ROCR และ AUC เพื่อทำการวิเคราะห์ ROC ปรากฎว่า AUC สำหรับ A สูงกว่า AUC สำหรับ B เหตุใดจึงเป็นเช่นนี้ เกิดขึ้น?

จริงบวก (tp), เท็จบวก (fp), ลบเท็จ (fn), ลบจริง (tn), ความไว (เซน), ความจำเพาะ (spec), ค่าพยากรณ์เชิงบวก (ppv), ค่าพยากรณ์ลบ (npv), และ ความแม่นยำ (acc) สำหรับ A และ B มีดังนี้

+------+---------+---------+
|      |    A    |    B    |
+------+---------+---------+
| tp   | 3601    | 769     |
| fp   | 0       | 0       |
| fn   | 6569    | 5918    |
| tn   | 15655   | 19138   |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv  | 1.00000 | 1.00000 |
| npv  | 0.70442 | 0.76381 |
| acc  | 0.74563 | 0.77084 |
+------+---------+---------+

ด้วยข้อยกเว้นของความรู้สึกและความสัมพันธ์ (ข้อมูลจำเพาะและ ppv) บนระยะขอบ (ยกเว้น tp, fn, fn และ tn) ดูเหมือนว่า B จะทำงานได้ดีกว่า A

เมื่อฉันคำนวณ AUC สำหรับ sens (แกน y) เทียบกับ 1-spec (แกน x)

aucroc <- auc(roc(data$prediction,data$labels));

นี่คือการเปรียบเทียบ AUC

+----------------+---------+---------+
|                |    A    |    B    |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec   | 0.70770 | 0.61000 |
+----------------+---------+---------+

ดังนั้นนี่คือคำถามของฉัน:

  • เหตุใด AUC สำหรับ A ดีกว่า B เมื่อ B "ดูเหมือน" ดีกว่า A เมื่อเทียบกับความแม่นยำ
  • ดังนั้นฉันจะตัดสิน / เปรียบเทียบการจำแนกประเภทของ A และ B ได้อย่างไร? ฉันหมายถึงฉันใช้ค่า AUC หรือไม่ ฉันใช้ค่ามาตรฐานและถ้าเป็นเช่นนั้นทำไม
  • นอกจากนี้เมื่อฉันใช้กฎการให้คะแนนที่เหมาะสมกับ A และ B B มีประสิทธิภาพเหนือกว่า A ในแง่ของการสูญเสียบันทึกการสูญเสียกำลังสองและการสูญเสียทรงกลม (p <0.001) น้ำหนักเหล่านี้มีผลต่อการตัดสินประสิทธิภาพการจำแนกประเภทอย่างไรเมื่อเทียบกับ AUC
  • กราฟ ROC สำหรับ A ดูเรียบมาก (เป็นส่วนโค้ง) แต่กราฟ ROC สำหรับ B ดูเหมือนชุดของเส้นเชื่อมต่อ ทำไมนี้

ตามที่ร้องขอนี่คือแผนผังสำหรับโมเดล A

model A naive bayes net

นี่คือแปลงสำหรับโมเดล B

รุ่น B ธรรมดา Bayes net

นี่คือพล็อตฮิสโตแกรมของการแจกแจงความน่าจะเป็นสำหรับ A และ B (การแบ่งถูกตั้งไว้ที่ 20)

พล็อตฮิสโตแกรม

นี่คือพล็อตการกระจายของความน่าจะเป็นของ B กับ A

พล็อตกระจาย


1
ตารางของคุณไม่สมเหตุสมผล: คุณเลือกจุดที่คำนวณค่าประสิทธิภาพได้อย่างไร
Calimo

3
โปรดจำไว้ว่ามาตรการ AUC ประสิทธิภาพกว่าเกณฑ์ที่เป็นไปได้ทั้งหมด มันจะช่วย (คุณเช่นกัน) ถ้าคุณสามารถแสดงเส้นโค้ง (นึกคิดในพล็อตเดียวกัน)
Calimo

@ Calimo ขออภัยฉันลืมที่จะรวมข้อมูลนั้น แต่เกณฑ์ที่ใช้ในการสร้างเมทริกซ์ความสับสนนั้นคือ 50%
Jane Wayne

คุณหมายถึง 0.5? ค่าที่คาดการณ์ของ A และ B ดูแตกต่างอย่างชัดเจนและหากคุณยังไม่ได้รับคำใบ้คุณควรพล็อตกราฟฮิสโทแกรมเคียงข้างกันแน่นอน
Calimo

@ Calimo คุณช่วยกรุณาอธิบายฮิสโทแกรมของสิ่งที่เคียงข้างกัน?
Jane Wayne

คำตอบ:


27

DxY


6

1
@alto, 0.5 เป็นกฎเกณฑ์อย่างยิ่งพร้อมกับฟังก์ชั่นยูทิลิตี้ / การสูญเสีย / ค่าใช้จ่ายที่ผิดปกติมากที่สุดซึ่งข้อผิดพลาดสองชนิดนั้นไม่ดีเท่ากัน นี่เป็นกรณีที่ไม่ค่อย การคิดความน่าจะเป็นซึ่งเป็นวิธีที่ฉันเกิดขึ้นเชื่อว่าวิธีการทำงานของธรรมชาติไม่มีสิ่งเช่น "ความผิดพลาด" แต่เป็นระดับความเลวของการทำนายความเสี่ยง ตัวอย่างเช่นการทำนายความน่าจะเป็นที่ 0.6 จากนั้นการสังเกตเหตุการณ์นั้นแย่กว่าการทำนายความน่าจะเป็นที่ 0.9 และจากนั้นก็สังเกตเหตุการณ์ แต่คำทำนายนั้นไม่ "ผิด" คุณสามารถใช้คะแนนความแม่นยำความน่าจะเป็นที่ไม่ต้องมีเกณฑ์
Frank Harrell

3
โมเดลที่ไม่มีขอบเขตเช่นโลจิสติกไม่ได้นำไปสู่การมีข้อมูลเกินกว่าวิธีการอื่นใด การแปลงโลจิสติกทำให้แน่ใจว่าการประมาณความน่าจะเป็นนั้นดี ข้อเสียเพียงข้อเดียวของกฎการให้คะแนนแบบลอการิทึมคือถ้าคุณทำนายความน่าจะเป็นใกล้เคียงกับ 0 หรือ 1 มากและคุณ "ผิด" มันเป็นความจริงที่ว่าใครคนหนึ่งจะทำการตัดสินใจในท้ายที่สุด แต่ก็ไม่ได้ติดตามเลยว่านักวิเคราะห์ควรตัดสินใจโดยใช้เกณฑ์ การตัดสินใจควรเลื่อนไปยังผู้มีอำนาจตัดสินใจ หนังสือสัญญาณและเสียงของเนทซิลเวอร์ได้รับประโยชน์อย่างมากจากการคิดแบบน่าจะเป็น
Frank Harrell

1
@ FrankHarrell มันน่าผิดหวังที่คุณเข้าใจผิดความคิดเห็นของฉัน ฉันไม่เคยสนับสนุนวิธีกล่องดำ ฉันแค่คิดว่าคำพูดของคุณ "x ไม่มีประโยชน์การใช้ y เท่านั้น" นั้นแรงเกินไป
อัลโต

4
@alto ที่เข้าใจ ฉันคิดว่าการจดจำรูปแบบตามเวลาจริงไม่มีเวลาสำหรับยูทิลิตี้ นี่ไม่ใช่โลกที่ฉันทำงานอยู่ แต่ก็ยังมีหลายกรณีในแบบเรียลไทม์ที่คุณต้องการให้มีกล่องดำบอกคุณ "ไม่แน่นอน" มากกว่าบังคับทางเลือกระหว่าง "นั่นคือรถถังที่มาหาคุณ" กับ "นั่นคือ รถยนต์นั่งส่วนบุคคล ".
Frank Harrell

16
  1. เหตุใด AUC สำหรับ A ดีกว่า B เมื่อ B "ดูเหมือน" ดีกว่า A เมื่อเทียบกับความแม่นยำ

    ความแม่นยำคำนวณได้ที่ค่าเกณฑ์ 0.5 ในขณะที่ AUC คำนวณโดยการเพิ่ม "ความถูกต้อง" ทั้งหมดที่คำนวณได้สำหรับค่าเกณฑ์ที่เป็นไปได้ทั้งหมด ROC สามารถมองเห็นเป็นค่าเฉลี่ย (ค่าที่คาดหวัง) ของความถูกต้องเหล่านั้นเมื่อคำนวณสำหรับค่าขีด จำกัด ทั้งหมด

  2. ดังนั้นฉันจะตัดสิน / เปรียบเทียบการจำแนกประเภทของ A และ B ได้อย่างไร? ฉันหมายถึงฉันใช้ค่า AUC หรือไม่ ฉันจะใช้ค่ามาตรฐานได้อย่างไร และทำไม?

    มันขึ้นอยู่กับ. เส้นโค้ง ROC บอกคุณบางอย่างเกี่ยวกับแบบจำลองของคุณว่าแบบจำลองของคุณแยกสองคลาสได้ดีเพียงใด ความแม่นยำเป็นตัวชี้วัดที่ใช้งานได้ดีโดยปกติเมื่อชั้นเรียนรักษาสมดุลในชุดรถไฟและชุดทดสอบและเมื่อคะแนนมีความน่าจะเป็นจริง ROC ให้คำแนะนำเพิ่มเติมแก่คุณเกี่ยวกับวิธีการทำงานของแบบจำลองหากการละเมิดสมมติฐานนี้ (อย่างไรก็ตามเป็นเพียงแนวคิด)

  3. นอกจากนี้เมื่อฉันใช้กฎการให้คะแนนที่เหมาะสมกับ A และ B, B มีประสิทธิภาพเหนือกว่า A ในแง่ของการสูญเสียบันทึกการสูญเสียกำลังสองและการสูญเสียทรงกลม (p <0.001) น้ำหนักเหล่านี้เกี่ยวข้องกับการตัดสินประสิทธิภาพการจำแนกประเภทอย่างไรเมื่อเทียบกับ AUC

    ฉันไม่รู้. คุณต้องเข้าใจให้ดียิ่งขึ้นว่าคุณมีข้อมูลเกี่ยวกับอะไร สิ่งที่แต่ละรุ่นสามารถเข้าใจได้จากข้อมูลของคุณ และตัดสินใจในภายหลังซึ่งเป็นการประนีประนอมที่ดีที่สุด สาเหตุที่เกิดขึ้นคือไม่มีตัวชี้วัดสากลเกี่ยวกับประสิทธิภาพของตัวจําแนก

  4. กราฟ ROC สำหรับ A ดูเรียบมาก (เป็นส่วนโค้ง) แต่กราฟ ROC สำหรับ B ดูเหมือนชุดของเส้นเชื่อมต่อ ทำไมนี้

    นั่นอาจเป็นเพราะโมเดลแบบเบย์ช่วยให้คุณสามารถเปลี่ยนระหว่างสองคลาสได้อย่างราบรื่น นั่นคือการแปลในค่าเกณฑ์หลายอย่าง ซึ่งหมายถึงหลาย ๆ จุดบนเส้นโค้ง ROC แบบจำลองที่สองอาจสร้างค่าน้อยลงเนื่องจากการคาดการณ์ที่มีค่าเดียวกันในพื้นที่ขนาดใหญ่กว่าของพื้นที่อินพุต โดยทั่วไปแล้วเส้นโค้ง ROC เส้นแรกนั้นสร้างด้วยเส้นความแตกต่างเพียงอย่างเดียวคือมีเส้นเล็ก ๆ จำนวนมากที่อยู่ติดกันซึ่งคุณเห็นว่าเป็นเส้นโค้ง


1
ความแม่นยำสามารถคำนวณได้ที่ค่าเกณฑ์อื่น ๆ นอกเหนือจาก 0.5
Calimo

แน่นอนว่าคุณพูดถูก นั่นคือเหตุผลที่ฉันใช้ "ความถูกต้อง" ในข้อเสนอต่อไป อย่างไรก็ตามเมื่อพูดถึงความถูกต้องโดยไม่มีข้อมูลบริบทอื่น ๆ การคาดเดาที่ดีที่สุดสำหรับค่าเกณฑ์คือ 0.5
rapaio

2
มันง่ายที่จะดูว่ากระบวนการดังกล่าวเป็นอย่างไร ตัวประมาณสองสามตัวในสถิติที่ต้องใช้ตัวเลือกการเลือกตัวเลือกหรือการใช้ชีวิตตามอำเภอใจนั้นสามารถอยู่รอดได้ และฉันจะไม่เรียกสัดส่วนที่ถูกต้องว่าเป็น "ความถูกต้อง"
Frank Harrell

@unreasonablelearner คุณถูกต้องกับข้อสันนิษฐานของคุณ .. เมทริกซ์ความสับสนด้านบนถูกคำนวณที่ธรณีประตู 0.5 มีข้อได้เปรียบใด ๆ กับเพดานที่แตกต่างกันหรือไม่?
Jane Wayne

1
@JaneWayne สูตรแน่นอนสำหรับสัดส่วนของการจัดประเภทที่ถูกต้อง ความแม่นยำเป็นคำที่ใช้บ่อยที่สุดสำหรับสิ่งนี้ อย่างไรก็ตามความแม่นยำหมายถึงมากขึ้นและในแง่ของสิ่งที่ Frank Harrell พูดฉันคิดว่าตอนนี้ความแม่นยำนั้นไม่ได้เป็นคำศัพท์ที่ดีที่สุด ตอนนี้ฉันคิดว่าการใช้งานอาจเป็นอันตรายแม้ว่าจะได้รับความนิยมก็ตาม นี่คือสิ่งที่ฉันผิด
rapaio

4

เหตุใด AUC สำหรับ A ดีกว่า B เมื่อ B "ดูเหมือน" ดีกว่า A เมื่อเทียบกับความแม่นยำ

อย่างแรกแม้ว่าการตัด (0.5) จะเหมือนกัน แต่ก็ไม่สามารถเทียบเคียงได้ระหว่าง A และ B ในความเป็นจริงมันดูแตกต่างจากฮิสโทแกรมของคุณ! ดูที่ B: การคาดคะเนทั้งหมดของคุณคือ <0.5

ประการที่สองทำไม B ถึงมีความแม่นยำ? เพราะความไม่สมดุลในคลาส ในการทดสอบ B คุณมีตัวอย่างลบ 19138 ตัวอย่างและบวก 6687 รายการ (ทำไมตัวเลขต่างกันใน A จึงไม่ชัดเจนสำหรับฉัน: อาจมีค่าที่ขาดหายไป) ซึ่งหมายความว่าเพียงแค่บอกว่าทุกอย่างเป็นลบฉันสามารถบรรลุความแม่นยำที่ดีอยู่แล้ว: แม่นยำ 19138 / (19138 + 6687) = 74% โปรดทราบว่าสิ่งนี้ไม่จำเป็นต้องมีความรู้ใด ๆ เลยนอกจากความจริงที่ว่ามีความไม่สมดุลระหว่างคลาส: แม้แต่แบบที่โง่ที่สุดก็สามารถทำได้!

และนี่คือสิ่งที่การทดสอบ B ทำที่ 0.5 ขีด จำกัด ... คุณจะได้รับ (เกือบ) การคาดการณ์เชิงลบเท่านั้น

A เป็นถุงแบบผสมมากกว่า แม้ว่ามันจะมีความแม่นยำที่ต่ำกว่าเล็กน้อย แต่โปรดทราบว่าความไวของมันสูงกว่ามากเมื่อถูกตัดออก ...

สุดท้ายคุณไม่สามารถเปรียบเทียบความแม่นยำ (ประสิทธิภาพที่หนึ่งขีด จำกัด ) กับ AUC (ประสิทธิภาพโดยเฉลี่ยของเกณฑ์ที่เป็นไปได้ทั้งหมด) เนื่องจากตัวชี้วัดเหล่านี้วัดสิ่งต่าง ๆ จึงไม่น่าแปลกใจว่าจะแตกต่างกัน

ดังนั้นฉันจะตัดสิน / เปรียบเทียบการจำแนกประเภทของ A และ B ได้อย่างไร? ฉันหมายถึงฉันใช้ค่า AUC หรือไม่ ฉันจะใช้ค่ามาตรฐานได้อย่างไร และทำไม?

นอกจากนี้เมื่อฉันใช้กฎการให้คะแนนที่เหมาะสมกับ A และ B B มีประสิทธิภาพเหนือกว่า A ในแง่ของการสูญเสียบันทึกการสูญเสียกำลังสองและการสูญเสียทรงกลม (p <0.001) น้ำหนักเหล่านี้มีผลต่อการตัดสินประสิทธิภาพการจำแนกประเภทอย่างไรเมื่อเทียบกับ AUC

คุณต้องคิดว่าคุณต้องการทำอะไรจริงๆ อะไรที่สำคัญ ในท้ายที่สุดมีเพียงคุณเท่านั้นที่สามารถตอบคำถามนี้ได้ตามความรู้ของคำถาม อาจ AUC มีเหตุผล (ไม่ค่อยเป็นจริงเมื่อคุณคิดถึงมันจริงๆยกเว้นเมื่อคุณไม่ต้องการตัดสินใจด้วยตัวเอง แต่ให้คนอื่นทำเช่นนั้น - เป็นไปได้มากว่าคุณกำลังทำเครื่องมือเพื่อให้ผู้อื่นใช้) ความแม่นยำ (ถ้าคุณต้องการเลขฐานสองไม่มีคำตอบไป) แต่อาจแตกต่างกันไปตามเกณฑ์บางทีมาตรการอื่น ๆ ที่ต่อเนื่องอาจเป็นหนึ่งในมาตรการที่ Frank Frank แนะนำ ... ตามที่ระบุไว้แล้วไม่มีคำถามสากล ที่นี่

กราฟ ROC สำหรับ A ดูเรียบมาก (เป็นส่วนโค้ง) แต่กราฟ ROC สำหรับ B ดูเหมือนชุดของเส้นเชื่อมต่อ ทำไมนี้

กลับไปที่การคาดคะเนที่คุณแสดงบนฮิสโทแกรม A ช่วยให้คุณทำนายผลอย่างต่อเนื่องหรือเกือบต่อเนื่อง ในทางกลับกัน B จะคืนค่าส่วนใหญ่เพียงไม่กี่ค่า (ตามที่คุณเห็นโดยฮิสโตแกรม "แหลมคม")

ในเส้นโค้ง ROC แต่ละจุดตรงกับเกณฑ์ ใน A คุณมีเกณฑ์จำนวนมาก (เนื่องจากการคาดคะเนเป็นแบบต่อเนื่อง) ดังนั้นเส้นโค้งจึงราบรื่น ใน B คุณมีขีด จำกัด เพียงเล็กน้อยดังนั้นเส้นโค้งจึงดู "กระโดด" จาก SN / SP ไปยังอีกอันหนึ่ง

คุณเห็นการกระโดดในแนวตั้งเมื่อความไวเปลี่ยนเฉพาะ (ขีด จำกัด สร้างความแตกต่างเฉพาะในกรณีบวก) กระโดดข้ามแนวนอนเมื่อความจำเพาะเปลี่ยนเท่านั้น (ขีด จำกัด สร้างความแตกต่างสำหรับตัวอย่างเชิงลบเท่านั้น) และกระโดดข้ามเส้นทแยงมุมเมื่อการเปลี่ยนแปลง


+1 อย่างไรก็ตามไม่ใช่กรณีที่ AUC มีไว้สำหรับ "เมื่อคุณไม่ต้องการตัดสินใจด้วยตัวเอง แต่ให้ผู้อื่นทำเช่นนั้น" ดู: วิธีการคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือ c-สถิติด้วยมือ
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.