ฉันพบว่าเขาและการ์เซีย (2009)เป็นประโยชน์ในการทบทวนการเรียนรู้ในปัญหาการเรียนที่ไม่สมดุล ต่อไปนี้เป็นสิ่งที่ควรพิจารณาบางประการที่ไม่ครอบคลุมอย่างแน่นอน:
แนวทางบนพื้นฐานของข้อมูล:
หนึ่งสามารถ undersample ชั้นเสียงส่วนใหญ่หรือ oversample ระดับชนกลุ่มน้อย (Breiman ชี้ให้เห็นว่านี่เป็นทางการเทียบเท่ากับการกำหนดค่าการแบ่งประเภทที่ไม่สม่ำเสมอ) ซึ่งอาจทำให้เกิดปัญหา: การ Undersampling สามารถทำให้ผู้เรียนพลาดมุมมองของคนส่วนใหญ่ การ oversampling เพิ่มความเสี่ยงของการเกิด overfitting
มีวิธีการ "แจ้งการสุ่มตัวอย่างแบบมีข้อมูล" ที่ช่วยลดปัญหาเหล่านี้ หนึ่งในนั้นคือEasyEnsembleซึ่งสุ่มตัวอย่างหลายชุดย่อยจากคลาสส่วนใหญ่และสร้างตัวแยกประเภทหลายตัวโดยการรวมแต่ละชุดย่อยกับข้อมูลคลาสย่อยทั้งหมด
SMOTE (เทคนิคการสังเคราะห์ของชนกลุ่มน้อยส่วนน้อย)หรือSMOTEBoost (การรวม SMOTE กับการเพิ่มประสิทธิภาพ)สร้างอินสแตนซ์สังเคราะห์ของกลุ่มชนกลุ่มน้อยโดยการสร้างเพื่อนบ้านที่ใกล้ที่สุดในพื้นที่คุณลักษณะ SMOTE ถูกนำไปใช้ใน R ในแพ็คเกจ DMwR (ซึ่งมาพร้อมกับหนังสือของ Luis Torgo“ Data Mining with R, การเรียนรู้กับกรณีศึกษา” CRC Press 2016 )
แนวทางการสร้างแบบจำลองที่เหมาะสม
ใช้ตุ้มน้ำหนักเฉพาะชั้นเรียนในฟังก์ชั่นการสูญเสียของคุณ
สำหรับแนวทางแบบอิงทรีคุณสามารถใช้ระยะทาง Hellingerเป็นฟังก์ชันปมความไม่สมบูรณ์ของโหนดได้เช่นกันในCieslak et al "ต้นไม้การตัดสินใจระยะทางของ Hellinger นั้นแข็งแกร่งและไร้ความรู้สึก" ( รหัส Weka ที่นี่ )
ใช้ตัวจําแนกคลาสแบบหนึ่งโดยเรียนความหนาแน่นของความน่าจะเป็นหรือขอบเขตของคลาสหนึ่งและขึ้นอยู่กับคลาสที่เป็นค่าผิดปกติ
แน่นอนว่าอย่าใช้ความแม่นยำเป็นตัวชี้วัดสำหรับการสร้างแบบจำลอง คัปปาของโคเฮนเป็นทางเลือกที่สมเหตุสมผล
แนวทางการประเมินแบบจำลอง
หากแบบจำลองของคุณส่งคืนความน่าจะเป็นที่คาดการณ์หรือคะแนนอื่น ๆ ให้เลือกตัวเลือกการตัดสินใจที่ทำให้เกิดข้อผิดพลาดที่เหมาะสม (ใช้ชุดข้อมูลที่เป็นอิสระจากการฝึกอบรมและการทดสอบ) ใน R แพ็กเกจ OptimalCutpoints ใช้อัลกอริธึมจำนวนมากรวมถึงอันที่มีความอ่อนไหวด้านราคาสำหรับการตัดสินใจเลือกตัด