ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?
ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?
คำตอบ:
ความสำคัญของตัวแปรในฟอเรสต์แบบสุ่มคำนวณได้ดังนี้:
จากนั้นค่าของคอลัมน์เดียวจะได้รับอนุญาตและคำนวณ MSE อีกครั้ง ตัวอย่างเช่นหากคอลัมน์ (Col1) รับค่า 1,2,3,4 และการเรียงสับเปลี่ยนแบบสุ่มของค่าจะส่งผลให้เป็น 4,3,1,2 ผลลัพธ์นี้ใน MSE1 จากนั้นการเพิ่มขึ้นของ MSE เช่น MSE1 - MSE จะหมายถึงความสำคัญของตัวแปร
เราคาดหวังว่าผลต่างจะเป็นค่าบวก แต่ในกรณีของจำนวนลบแสดงว่าการเรียงสับเปลี่ยนแบบสุ่มทำงานได้ดีขึ้น สามารถอนุมานได้ว่าตัวแปรไม่มีบทบาทในการทำนายนั่นคือไม่สำคัญ
หวังว่านี่จะช่วยได้!
โปรดอ้างอิงลิงค์ต่อไปนี้สำหรับคำอธิบายอย่างละเอียด!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
นี่อาจเป็นเพียงความผันผวนแบบสุ่ม (ตัวอย่างเช่นหากคุณมี ntree ขนาดเล็ก)
หากไม่แสดงว่าคุณมีความขัดแย้งจำนวนมากในข้อมูลของคุณเช่นคู่ของวัตถุที่มีตัวพยากรณ์ที่เหมือนกันเกือบทั้งหมดและผลลัพธ์ที่แตกต่างกันมาก ในกรณีนี้ฉันจะตรวจสอบสองครั้งหากแบบจำลองนั้นสมเหตุสมผลและเริ่มคิดว่าฉันจะได้รับคุณลักษณะเพิ่มเติมเพื่อแก้ไขปัญหาได้อย่างไร