3
การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง
ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )