การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง


22

ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี:

วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม

เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล:

[... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ]

ดังนั้นคำถามของฉันจะเป็น:

  • ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้
  • เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

การสุ่มตัวอย่างขึ้น / ลงข้อมูลของคุณเป็นสิ่งที่คุณควรทำเมื่อข้อมูลการฝึกอบรมมีความไม่สมดุลของข้อมูลและบางครั้งสามารถช่วยป้องกันตัวแยกประเภทจากการเพิกเฉยต่อชนชั้นน้อย ความไม่เหมาะสม (และฉ้อโกงเล็กน้อย) เพื่อใช้ข้อมูลที่ถูกสุ่มใหม่เมื่อประเมินลักษณนามของคุณ - คุณจะรายงานประสิทธิภาพที่ลักษณนามของคุณไม่มีเมื่อนำไปใช้กับตัวอย่างที่แจกจ่ายไปยังข้อมูลทดสอบเดิมของคุณ
user48956

ที่เกี่ยวข้อง: stats.stackexchange.com/questions/284515/…
Anton Tarasenko

คำตอบ:


10

ใช่สมมติฐานของคุณเกี่ยวกับคัปปาดูเหมือนจะถูกต้อง คัปปาเป็นตัวชี้วัดแบบสเกลาร์เดี่ยวส่วนใหญ่และได้เปรียบกว่าตัวชี้วัดสเกลาร์เดี่ยวอื่น ๆ เช่นความถูกต้องซึ่งจะไม่สะท้อนประสิทธิภาพการทำนายของชั้นเรียนขนาดเล็ก (เงาโดยประสิทธิภาพของคลาสที่ใหญ่กว่า) คัปปาแก้ปัญหานี้ได้อย่างสวยงามยิ่งขึ้นในขณะที่คุณชี้ให้เห็น

การใช้เมตริกเช่นคัปปาเพื่อวัดประสิทธิภาพของคุณจะไม่จำเป็นต้องเพิ่มวิธีที่โมเดลของคุณเหมาะสมกับข้อมูล คุณสามารถวัดประสิทธิภาพของโมเดลใด ๆ โดยใช้เมทริกจำนวนหนึ่ง แต่วิธีที่โมเดลนั้นเหมาะกับข้อมูลถูกกำหนดโดยใช้พารามิเตอร์อื่น ๆ (เช่นพารามิเตอร์ไฮเปอร์พารามิเตอร์) ดังนั้นคุณอาจใช้ตัวอย่างเช่นคัปปาในการเลือกรูปแบบโมเดลที่เหมาะสมที่สุดและ hyperparametrization ในตัวเลือกที่หลากหลายสำหรับปัญหาที่ไม่สมดุลของคุณ - แต่การคำนวณ Kappa นั้นจะไม่เปลี่ยนวิธีที่โมเดลของคุณเหมาะสมกับข้อมูลที่ไม่สมดุลของคุณ

สำหรับการวัดที่แตกต่าง: นอกเหนือจากคัปปาและความแม่นยำ / การเรียกคืนยังดูที่อัตราการบวกจริงและลบจริง TPR / TNR และเส้นโค้ง ROC และพื้นที่ใต้เส้นโค้ง AUC สิ่งใดที่มีประโยชน์สำหรับปัญหาของคุณส่วนใหญ่จะขึ้นอยู่กับรายละเอียดของเป้าหมายของคุณ ตัวอย่างเช่นข้อมูลที่แตกต่างกันที่แสดงใน TPR / TNR และความแม่นยำ / การเรียกคืน: เป็นเป้าหมายของคุณที่จะตรวจพบการฉ้อโกงในระดับสูงเช่นนี้และการตรวจพบธุรกรรมที่ถูกต้องตามกฎหมายในระดับสูงและ / หรือการลดสัดส่วน ของสัญญาณเตือนที่ผิดพลาด (ซึ่งคุณจะได้รับ "en mass" พร้อมกับปัญหาดังกล่าว) ตามปกติในการเตือนภัยทั้งหมดหรือไม่

สำหรับการสุ่มตัวอย่างขึ้น / ลง: ฉันคิดว่าไม่มีคำตอบที่ยอมรับได้ของคำว่า "ถ้าจำเป็น" นี่เป็นอีกวิธีหนึ่งในการปรับแก้ปัญหาของคุณ ในทางเทคนิค: ใช่คุณสามารถใช้มันได้ แต่ใช้ด้วยความระมัดระวังโดยเฉพาะอย่างยิ่งการยกตัวอย่าง (คุณอาจสร้างตัวอย่างที่ไม่สมจริงโดยไม่สังเกตเห็น) - และระวังว่าการเปลี่ยนความถี่ของตัวอย่างของทั้งสองคลาสเป็นสิ่งที่ไม่สมจริง "ในป่า "อาจมีผลกระทบเชิงลบต่อประสิทธิภาพการทำนายเช่นกัน อย่างน้อยชุดการทดสอบสุดท้ายที่ถือไว้ควรสะท้อนความถี่จริงของตัวอย่างอีกครั้ง ที่บรรทัดล่าง: ฉันเคยเห็นทั้งสองกรณีที่การทำและไม่ได้ทำการสุ่มตัวอย่างขึ้นหรือลดลงส่งผลให้ผลลัพธ์สุดท้ายดีขึ้นดังนั้นนี่คือสิ่งที่คุณอาจต้องลองใช้ (แต่ไม่ต้องจัดการชุดทดสอบของคุณ!) .


แต่วิธีการคิดต้นทุนแบบ DOI 10.1109 / ICMLA.2014.48 นั้นเหมาะสมกว่าเพราะคำนึงถึงผลกระทบทางธุรกิจโดยรวมหรือไม่?
Georg Heiler

15

TPFPFยังไม่มีข้อความ

  • คะแนน F1ซึ่งเป็นค่าเฉลี่ยฮาร์โมนิของความแม่นยำและการเรียกคืน
  • G-วัดซึ่งเป็นค่าเฉลี่ยเรขาคณิตของความแม่นยำและการเรียกคืน เมื่อเทียบกับ F1 ฉันพบว่ามันค่อนข้างดีกว่าสำหรับข้อมูลที่ไม่สมดุล
  • TP/(TP+FP+Fยังไม่มีข้อความ)

หมายเหตุ: สำหรับชุดข้อมูลที่ไม่สมดุลจะเป็นการดีที่สุดที่จะให้เมตริกของคุณมีค่าเฉลี่ยมาโครมหภาคเฉลี่ย


1
คุณหมายถึงอะไร 'ดีกว่า' เมื่ออ้างถึง G-measure และดัชนี Jaccard
Narfanar

8

สำหรับชุดข้อมูลที่ไม่สมดุลบางครั้งตัวชี้วัดความแม่นยำเฉลี่ยก็เป็นทางเลือกที่ดีกว่า AUROC คะแนน AP เป็นพื้นที่ใต้กราฟความแม่นยำในการจำ

นี่คือการสนทนากับรหัสบางอย่าง (Python)

นี่คือกระดาษกระดาษ

นอกจากนี้โปรดดูที่ส่วนโค้ง Precision-Recall-Gain ที่มีความแม่นยำของ Peter Flach พร้อมกับการอภิปรายเกี่ยวกับจุดบกพร่องของ AP AP

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.