ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก:
1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000)
2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี
มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่