4
"กฏเกณฑ์ง่ายๆ" ในจำนวนของคุณสมบัติกับจำนวนอินสแตนซ์? (ชุดข้อมูลขนาดเล็ก)
ฉันสงสัยว่าถ้ามีฮิวริสติกเกี่ยวกับคุณลักษณะหลายอย่างกับจำนวนการสังเกต เห็นได้ชัดว่าถ้าคุณสมบัติจำนวนหนึ่งเท่ากับจำนวนการสังเกตแบบจำลองจะพอดี โดยใช้วิธีการกระจัดกระจาย (LASSO, elastic net) เราสามารถลบคุณลักษณะต่าง ๆ เพื่อลดแบบจำลองได้ คำถามของฉันคือ (ในทางทฤษฎี): ก่อนที่เราจะใช้ตัวชี้วัดเพื่อประเมินการเลือกแบบจำลองจะมีข้อสังเกตเชิงประจักษ์ใดบ้างที่เกี่ยวข้องกับจำนวนคุณลักษณะที่เหมาะสมที่สุดกับจำนวนการสังเกต? ตัวอย่างเช่น: สำหรับปัญหาการจำแนกเลขฐานสองที่มี 20 อินสแตนซ์ในแต่ละชั้นจะมีขีด จำกัด บนของจำนวนคุณสมบัติที่จะใช้หรือไม่?