2
เหตุใดการประมาณข้อผิดพลาด OOB ฟอเรสต์แบบสุ่มจึงดีขึ้นเมื่อจำนวนของคุณสมบัติที่เลือกลดลง
ฉันใช้อัลกอริธึมฟอเรสต์แบบสุ่มเป็นตัวจําแนกในชุดข้อมูลขนาดเล็กซึ่งแบ่งออกเป็นสองกลุ่มที่รู้จักพร้อมกับคุณลักษณะ 1000s หลังจากรันครั้งแรกฉันดูความสำคัญของฟีเจอร์และเรียกใช้อัลกอริทึมแบบทรีอีกครั้งด้วยฟีเจอร์ที่สำคัญที่สุด 5, 10 และ 20 ฉันพบว่าสำหรับฟีเจอร์ทั้งหมดอันดับ 10 และ 20 ที่การประเมิน OOB ของอัตราข้อผิดพลาดคือ 1.19% ซึ่งสำหรับฟีเจอร์ 5 อันดับแรกนั้นคือ 0% นี่ดูเหมือนจะขัดกับฉันดังนั้นฉันจึงสงสัยว่าคุณจะอธิบายได้หรือไม่ว่าฉันขาดอะไรไปหรือฉันใช้เมตริกที่ไม่ถูกต้อง ฉันใช้แพ็คเกจ randomForest ใน R กับ ntree = 1,000, nodesize = 1 และ mtry = sqrt (n)