ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recall
หรือkappa
ทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี:
วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม
เท่าที่ผมเข้าใจkappa
อาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappa
เกี่ยวข้องกับแนวคิดของการได้รับข้อมูล:
[... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ]
ดังนั้นคำถามของฉันจะเป็น:
- ถูกต้องหรือไม่ที่จะถือว่า
kappa
เป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ - เพียงใช้
kappa
ป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )