ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ:
SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE )
ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN )
ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ
คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์:
1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม)
2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ
ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง
ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่