ตัวแปรสำคัญแบบสุ่มค่าลบของป่า


10

ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?

คำตอบ:


5

ความสำคัญของตัวแปรในฟอเรสต์แบบสุ่มคำนวณได้ดังนี้:

  1. เริ่มแรก MSE ของแบบจำลองจะถูกคำนวณด้วยตัวแปรดั้งเดิม
  2. จากนั้นค่าของคอลัมน์เดียวจะได้รับอนุญาตและคำนวณ MSE อีกครั้ง ตัวอย่างเช่นหากคอลัมน์ (Col1) รับค่า 1,2,3,4 และการเรียงสับเปลี่ยนแบบสุ่มของค่าจะส่งผลให้เป็น 4,3,1,2 ผลลัพธ์นี้ใน MSE1 จากนั้นการเพิ่มขึ้นของ MSE เช่น MSE1 - MSE จะหมายถึงความสำคัญของตัวแปร

  3. เราคาดหวังว่าผลต่างจะเป็นค่าบวก แต่ในกรณีของจำนวนลบแสดงว่าการเรียงสับเปลี่ยนแบบสุ่มทำงานได้ดีขึ้น สามารถอนุมานได้ว่าตัวแปรไม่มีบทบาทในการทำนายนั่นคือไม่สำคัญ

หวังว่านี่จะช่วยได้!

โปรดอ้างอิงลิงค์ต่อไปนี้สำหรับคำอธิบายอย่างละเอียด!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

นี่อาจเป็นเพียงความผันผวนแบบสุ่ม (ตัวอย่างเช่นหากคุณมี ntree ขนาดเล็ก)

หากไม่แสดงว่าคุณมีความขัดแย้งจำนวนมากในข้อมูลของคุณเช่นคู่ของวัตถุที่มีตัวพยากรณ์ที่เหมือนกันเกือบทั้งหมดและผลลัพธ์ที่แตกต่างกันมาก ในกรณีนี้ฉันจะตรวจสอบสองครั้งหากแบบจำลองนั้นสมเหตุสมผลและเริ่มคิดว่าฉันจะได้รับคุณลักษณะเพิ่มเติมเพื่อแก้ไขปัญหาได้อย่างไร


2
คุณช่วยอธิบายเพิ่มเติมเกี่ยวกับ "ความขัดแย้งในข้อมูล" อีกเล็กน้อยได้ไหม? ฉันไม่ค่อยได้ติดตามและต้องการที่จะเข้าใจในสิ่งที่คุณกำลังอธิบาย
JEquihua
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.