การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด


18

ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ:

  • SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE )

  • ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN )

ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ

คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์:

1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม)

2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ

ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง

ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

คำตอบ:


18

ความเห็นไม่กี่:

ตัวเลือก (1) เป็นความคิดที่แย่มาก สำเนาของจุดเดียวกันอาจสิ้นสุดทั้งในชุดฝึกอบรมและชุดทดสอบ สิ่งนี้ทำให้ลักษณนามโกงเนื่องจากเมื่อพยายามทำการคาดคะเนในชุดทดสอบลักษณนามจะเห็นจุดที่เหมือนกันในชุดรถไฟแล้ว จุดรวมของชุดทดสอบและชุดรถไฟคือชุดทดสอบควรเป็นอิสระจากชุดรถไฟ

k


ขอบคุณ Stefan สำหรับคำตอบ แต่ฉันต้องการชี้แจงจุด: วิธีการที่ฉันกล่าวถึงสร้างอินสแตนซ์ของ "สังเคราะห์" ของข้อมูลไม่เหมือนกับของดั้งเดิม ดังนั้นจึงไม่เหมือนกับว่าฉันกำลังทดสอบข้อมูลการฝึกอบรมเดียวกัน แต่ถึงกระนั้นฉันก็ไม่แน่ใจว่าตัวเลือก 1 เป็นวิธีการที่ถูกต้องหรือไม่
อัตราค่าโดยสาร

โอเคฉันเห็นแล้ว! ปัญหาของ (1) ยังคงมีอยู่แม้ว่าคุณจะสร้างข้อมูล "สังเคราะห์" เพราะข้อมูลสังเคราะห์มักจะคล้ายกับข้อมูลดั้งเดิมที่มันเลียนแบบ
Stefan Wager

@StefanWager เกี่ยวกับการกระจายตัวของชุดทดสอบ? มันควรจะเหมือนกับชุดข้อมูลดั้งเดิมหรือไม่?
วรรณนิก

2
มีการอ้างอิงของบทความใดบ้างที่สนับสนุนข้อเรียกร้องนี้?
girl101

วิธีการ @ stefan ถูกต้องคุณไม่เคยเพิ่มหรือสังเคราะห์ชุดการตรวจสอบของคุณเพราะนั่นคือหลักฐานของคุณ (ทดสอบ) ว่ารูปแบบการเรียนรู้ของคุณเป็นอย่างไรคุณต้องใช้ข้อมูลต้นฉบับเพื่อทำเช่นนั้น
M090009

8

ตัวเลือกที่สอง (2) เป็นวิธีที่ถูกต้องในการทำ ตัวอย่างสังเคราะห์ที่คุณสร้างด้วยเทคนิคการสุ่มตัวอย่างไม่ใช่ตัวอย่างจริง แต่เป็นการสังเคราะห์ สิ่งเหล่านี้ไม่ถูกต้องสำหรับจุดประสงค์ในการทดสอบในขณะที่ยังคงใช้ได้ พวกเขามีวัตถุประสงค์เพื่อปรับเปลี่ยนพฤติกรรมของลักษณนามโดยไม่ต้องแก้ไขอัลกอริทึม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.