แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง

16

ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก:

1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000)

2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี

มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

— บิตคำถาม
แหล่งที่มา

1

โปรดตรวจสอบคำถามต่อไปนี้: การเรียนรู้ภายใต้การควบคุมกับเหตุการณ์ที่“ยาก”และวิธีที่ดีที่สุดในการจัดการชุดข้อมูลที่ไม่สมดุลกับ multiclass SVM สิ่งนี้ช่วยได้ไหม? คำถามของคุณฟังดูคล้ายกัน;)

— steffen

7

จากโพสต์เมื่อเร็ว ๆ นี้เกี่ยวกับ Reddit การตอบกลับโดยdatapraxisจะเป็นที่สนใจ

แก้ไข: บทความที่กล่าวถึงคือHaibo He, Edwardo A. Garcia, "การเรียนรู้จากข้อมูลที่ไม่สมดุล" ธุรกรรม IEEE เกี่ยวกับความรู้และวิศวกรรมข้อมูล, หน้า 1263-1284, กันยายน, 2009 (PDF)

— user728785
แหล่งที่มา

0

การถดถอยโลจิสติกแบบขยายจำนวนคู่, การเรียนรู้ด้วย ROC, การส่งเสริมและการบรรจุ (การรวม Bootstrap), การรวมกลุ่มตามลิงก์ (LCE), เครือข่ายแบบเบส์, ตัวจำแนกเซนทรอยด์ที่ใกล้ที่สุด, เทคนิคแบบเบส์, ชุดหยาบแบบถ่วงน้ำหนัก, k-NN

และวิธีการสุ่มตัวอย่างจำนวนมากเพื่อจัดการกับความไม่สมดุล

— Vladimir Chupakhin
แหล่งที่มา