ฉันกำลังเผชิญสถานการณ์ที่จำนวนตัวอย่างบวกและลบในชุดข้อมูลนั้นไม่สมดุลกัน
คำถามของฉันคือมีกฎของหัวแม่มือที่บอกเราเมื่อเราควร subsample หมวดหมู่ขนาดใหญ่เพื่อบังคับสมดุลบางประเภทในชุดข้อมูล
ตัวอย่าง:
- หากจำนวนตัวอย่างที่เป็นบวกคือ 1,000 และจำนวนตัวอย่างเชิงลบคือ 10,000 ฉันควรไปฝึกลักษณนามลักษณนามของฉันในชุดข้อมูลแบบเต็มหรือฉันควรตัวอย่างตัวอย่างเชิงลบหรือไม่
- คำถามเดียวกันสำหรับตัวอย่างบวก 1,000 ข้อและลบ 100,000 ข้อ
- คำถามเดียวกันสำหรับ 10,000 บวกและ 1,000 ลบ
- ฯลฯ ...