วิธีการวัดประสิทธิภาพของลักษณนามเมื่อใกล้ถึง 100% ของเลเบลคลาสเป็นของคลาสเดียว?


9

ในข้อมูลของฉันฉันมีตัวแปรคลาสแสดงเป็นCค่าตัวแปรคลาสนี้คือ (ไบนารี) การสำรวจเกือบทั้งหมดเป็น 0 (ใกล้ 100% แม่นยำยิ่งขึ้น 97%) ฉันต้องการทดสอบ "ประสิทธิภาพ" สำหรับแบบจำลองการจำแนกประเภทที่แตกต่างกัน (อาจเป็นความแม่นยำ) สิ่งที่ฉันกลัวว่าจะเกิดขึ้นคือถ้าฉันมีรูปแบบการจำแนกที่จำแนกประเภทการสังเกตใด ๆ ในคลาส 0 เสมอโมเดลนั้นจะมีความแม่นยำ 97% (แม้ว่ามันจะไม่เคยพิจารณาตัวแปรอื่น ๆ ก็ตาม)C0,1C

มีการทดสอบประสิทธิภาพที่รู้จักกันดีสำหรับแบบจำลองการจำแนกประเภทในการจัดการข้อมูลกับเหตุการณ์ที่เกิดขึ้นน้อยมากหรือไม่?

คำตอบ:


3

ความเป็นไปได้บางอย่างอยู่ในใจของฉัน

การดูอัตราการเข้าชมโดยรวมนั้นไม่ใช่ความคิดที่ดีนักเนื่องจากมันจะขึ้นอยู่กับองค์ประกอบของชุดทดสอบหากประสิทธิภาพของคลาสที่แตกต่างกัน อย่างน้อยที่สุดคุณควรระบุ (และปรับ) ความถี่สัมพัทธ์ของคลาสในข้อมูลการทดสอบของคุณเพื่อให้ได้ค่าที่มีความหมาย

ประการที่สองตามที่ @Shorack ได้กล่าวไปแล้วให้ระบุข้อผิดพลาดประเภทใดที่มีความสำคัญ บ่อยครั้งที่ตัวจําแนกต้องตรงตามเกณฑ์ประสิทธิภาพบางอย่างเพื่อให้มีประโยชน์ (และความแม่นยำโดยรวมนั้นไม่ค่อยมีการวัดที่เพียงพอ) มีมาตรการต่าง ๆ เช่นความไวความจำเพาะค่าความเชื่อมั่นในเชิงบวกและลบที่คำนึงถึงประเภทที่แตกต่างกันและการจำแนกประเภทที่แตกต่างกัน คุณสามารถพูดได้ว่ามาตรการเหล่านี้ตอบคำถามต่าง ๆ เกี่ยวกับตัวจําแนก:

  • ความไว:ส่วนใดของกรณีที่เป็นของคลาส C จะถูกรับรู้เช่นนี้?
  • ความจำเพาะ:ส่วนใดของกรณีที่ไม่ได้อยู่ในคลาส C จะได้รับการยอมรับเช่นนี้
  • ค่าคาดคะเนในเชิงบวก:เมื่อตัวแยกประเภทคาดการณ์คลาส C ความน่าจะเป็นที่การทำนายนี้ถูกต้องคืออะไร
  • ค่าการทำนายเชิงลบ:เนื่องจากลักษณนามคาดการณ์ว่ากรณีนี้ไม่ได้เป็นคลาส C ความน่าจะเป็นที่การทำนายนี้ถูกต้องคืออะไร?

คำถามเหล่านี้มักจะอนุญาตให้กำหนดข้อมูลจำเพาะที่ตัวจําแนกต้องต้องมีประโยชน์

ค่าการทำนายมักจะสำคัญกว่าจากมุมมองของการประยุกต์ใช้ตัวจําแนกในทางปฏิบัติ: พวกมันมีเงื่อนไขในการทำนายซึ่งเป็นสถานการณ์ที่คุณอยู่เมื่อใช้ classifer (ผู้ป่วยมักไม่สนใจที่จะรู้ว่า การทดสอบคือการรับรู้ถึงกรณีที่เป็นโรค แต่มีความเป็นไปได้ที่การวินิจฉัยดังกล่าวจะถูกต้อง) อย่างไรก็ตามในการคำนวณอย่างถูกต้องคุณจำเป็นต้องรู้ความถี่สัมพัทธ์ของคลาสที่แตกต่างกันในประชากรจึงใช้ตัวจําแนก (ดูเหมือนว่าคุณจะมีข้อมูลนี้ - ดังนั้นจึงไม่มีอะไรที่จะป้องกันไม่ให้คุณดู)

นอกจากนี้คุณยังสามารถดูข้อมูลที่ได้รับจากการทำนายผลบวกหรือลบได้ สิ่งนี้วัดจากอัตราส่วนความน่าจะเป็นบวกและลบ, LR⁺และLR⁻ พวกเขาบอกคุณสั้น ๆ ว่าการทำนายนั้นเปลี่ยนแปลงอัตราต่อรองของคำถาม (ดูคำตอบของฉันที่นี่สำหรับคำอธิบายรายละเอียดเพิ่มเติม)

สำหรับลักษณนามลวงตาของคุณสิ่งต่าง ๆ มีลักษณะดังนี้: ฉันจะใช้คลาส "0" เป็นคลาสที่มีปัญหาดังนั้น "บวก" หมายถึงคลาส "0" จาก 100 รายคาดว่าจะมี 100 รายการ (เป็นของคลาส 0) 97 ของพวกเขาทำจริง 3 ไม่ ความไวสำหรับคลาส 0 คือ 100% (ทั้ง 97 กรณีที่แท้จริงเป็นของคลาส 0 ได้รับการยอมรับ) ความจำเพาะคือ 0 (ไม่มีกรณีอื่นที่ไม่รู้จัก) ค่า predicitve เชิงบวก (สมมติว่าความถี่สัมพัทธ์เป็นตัวแทน 97: 3) คือ 97% ไม่สามารถคำนวณค่าการทำนายเชิงลบได้เนื่องจากไม่มีการทำนายเชิงลบเกิดขึ้น

LR+=sensitivity1specificity=1
LR=1sensitivityspecificity=00
ตอนนี้LR⁺และLR⁻เป็นปัจจัยที่คุณคูณอัตราต่อรองสำหรับกรณีที่เป็นของคลาสบวก ("0") การมีค่าLR⁺เท่ากับ 1หมายความว่าการคาดการณ์ในเชิงบวกไม่ได้ให้ข้อมูลใด ๆ กับคุณ: มันจะไม่เปลี่ยนอัตราต่อรอง ดังนั้นที่นี่คุณมีตัวชี้วัดที่ชัดเจนเป็นการแสดงออกถึงความจริงที่ว่าลักษณนามเล็กน้อยของคุณไม่ได้เพิ่มข้อมูลใด


ทิศทางของความคิดที่แตกต่างอย่างสิ้นเชิง: คุณพูดถึงว่าคุณต้องการประเมินตัวแยกประเภทที่แตกต่างกัน ฟังดูเหมือนการเปรียบเทียบหรือการเลือกลักษณนาม ข้อแม้ที่มีมาตรการที่ฉันพูดถึงข้างต้นคือพวกเขาอาจมีความไม่แน่นอนแบบสุ่มสูงมาก (หมายถึงคุณต้องการกรณีทดสอบจำนวนมาก ) หากคุณประเมินพวกเขาในฉลากระดับ "ยาก" หากการคาดการณ์ของคุณอย่างต่อเนื่องเป็นหลัก (ตัวชี้วัดเช่นความน่าจะเป็นหลัง) คุณสามารถใช้มาตรการที่เกี่ยวข้องที่ดูที่ชนิดเดียวกันของคำถาม แต่ไม่ได้ใช้เศษส่วนของกรณี แต่มาตรการอย่างต่อเนื่องดูที่นี่ สิ่งเหล่านี้จะเหมาะกว่าในการตรวจจับความแตกต่างเล็กน้อยในการทำนาย

(@FrankHarrell จะบอกคุณว่าคุณต้องการ "กฎการให้คะแนนที่เหมาะสม" ดังนั้นจึงเป็นคำค้นหาอีกคำหนึ่งที่ควรจดจำ)


3

ก่อนอื่น: การเข้าชมทั้งหมดมีความสำคัญเท่าเทียมกันและการพลาดทั้งหมดมีความสำคัญเท่าเทียมกันหรือไม่ ถ้าเป็นเช่นนั้นไม่มีอะไรผิดปกติกับการทำตัวแบบโมฆะของคุณว่าดี: มันเป็นทางออกที่ยอดเยี่ยม

หากคุณพบว่าเป็นสิ่งสำคัญที่จะมีประสิทธิภาพที่ดีในการทำนายค่า 1 คุณสามารถใช้การวัด F แทนได้ โดยพื้นฐานแล้วค่าเฉลี่ยฮาร์มอนิกของการเรียกคืน (ส่วนใดของ 1 ที่แท้จริงได้ถูกทำนายไว้เป็น 1) และความแม่นยำ สำหรับแบบจำลองที่ให้คะแนนสูงในการวัดนี้จำเป็นต้อง:

  1. ค้นหาส่วนใหญ่ของ 1
  2. มักจะไม่ทำนาย 1 เมื่อเป็นจริง 0

และมันต้องทำทั้งสองอย่างพร้อมกัน แม้ว่าแบบจำลองของคุณจะมีเพียงหนึ่งใน 2 แบบที่เกือบสมบูรณ์แบบ แต่ก็จะมีคะแนนต่ำหากไม่สามารถทำได้ตามข้อกำหนดอื่น https://en.wikipedia.org/wiki/F1_score


นั่นคือกฎการให้คะแนนที่ไม่เหมาะสมซึ่งใช้ข้อมูลเพียงเล็กน้อยจากการคาดการณ์ กฎการให้คะแนนที่ไม่เหมาะสมนั้นได้รับการปรับให้เหมาะสมโดยรุ่นปลอม
Frank Harrell

2

ฉันดีใจที่ @cbeleites เปิดประตู ... ความน่าจะเป็นที่สอดคล้องกันหรือ -index ซึ่งเกิดขึ้นเท่ากับพื้นที่ ROC ในกรณีพิเศษของไบนารีเป็นบทสรุปที่ดีของการแยกแยะการทำนาย เส้นโค้ง ROC นั้นมีหมึกสูง: อัตราส่วนข้อมูล แต่พื้นที่ใต้เส้นโค้งเพราะมันเท่ากับความน่าจะเป็นที่สอดคล้องกันมีคุณสมบัติที่ดีมากมายหนึ่งในนั้นคือมันเป็นอิสระจากความชุกของเนื่องจากเงื่อนไขบนYมันค่อนข้างไม่เหมาะสม (ใช้การวัดทั่วไปหรืออัตราส่วนความน่าจะเป็นเพื่อให้บรรลุ) และไม่ไวพอที่จะใช้เปรียบเทียบสองรุ่นมันเป็นบทสรุปที่ดีของแบบจำลองเดียวcYY=1YR2χ2


1

ลักษณะการทำงานของตัวรับสัญญาณ (ROC) http://en.wikipedia.org/wiki/Receiver_operating_characteristicโค้งและการคำนวณที่เกี่ยวข้อง (คือ Area Under Curve- AUC) เป็นที่นิยมใช้กันทั่วไป โดยพื้นฐานแล้วคุณคิดว่าตัวจําแนกของคุณให้การตอบสนองต่อเนื่อง (เช่นระหว่าง 0 ถึง 1) และคุณวางแผนความไวเทียบกับอัตราการเตือนที่ผิดพลาด (1- เจาะจง) ตามเกณฑ์การตัดสินใจที่แตกต่างกันระหว่าง 0 และ 1 สิ่งเหล่านี้ออกแบบมาเฉพาะ เครื่องบิน?)


1

เมื่อคุณจัดการกับข้อมูลที่ไม่สมดุลอย่างยิ่งเส้นโค้ง Precision-Recallเป็นเครื่องมือที่ดีมากดีกว่าลูกพี่ลูกน้องROC เส้นโค้งทั่วไป

เดวิสและ อัล ได้แสดงให้เห็นว่าอัลกอริทึมที่เพิ่มประสิทธิภาพพื้นที่ภายใต้เส้นโค้ง ROC ไม่รับประกันว่าจะเพิ่มประสิทธิภาพพื้นที่ภายใต้เส้นโค้ง PR

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.