ในฟอเรสต์แบบสุ่ม% IncMSE ที่ใหญ่กว่านั้นจะดีกว่าหรือแย่กว่านั้น?


17

เมื่อฉันได้สร้าง (ถดถอย) รุ่นป่าสุ่มใน R โทรrf$importanceให้ผมด้วยสองมาตรการสำหรับแต่ละตัวแปรทำนายและ%IncMSE IncNodePurityการตีความตัวแปรทำนายที่มี%IncMSEค่าน้อยกว่าสำคัญกว่าตัวแปรพยากรณ์ที่มี%IncMSEค่ามากกว่าหรือไม่

เกี่ยวกับเพื่อIncNodePurity?

คำตอบ:


30

% IncMSE เป็นมาตรการที่แข็งแกร่งและให้ข้อมูลมากที่สุด มันคือการเพิ่มขึ้นของ mse ของการคาดการณ์ (ประมาณกับ out-of-bag-CV) ซึ่งเป็นผลมาจากตัวแปร j ที่ได้รับอนุญาต (ค่าสับแบบสุ่ม)

  1. ปลูกป่าถดถอย คำนวณ OOB-mse ตั้งชื่อ mse0 นี้
  2. สำหรับ 1 ถึง j var: ค่า permute ของคอลัมน์ j จากนั้นทำนายและคำนวณ OOB-mse (j)
  3. % IncMSE ของ j'th คือ (mse (j) -mse0) / mse0 * 100%

จำนวนที่สูงขึ้นสำคัญยิ่ง

IncNodePurity เกี่ยวข้องกับฟังก์ชั่นการสูญเสียซึ่งโดยการเลือกแยกที่ดีที่สุด ฟังก์ชันการสูญเสียคือ mse สำหรับการถดถอยและ gini-impurity สำหรับการจำแนกประเภท ตัวแปรที่มีประโยชน์มากขึ้นจะเพิ่มความบริสุทธิ์ของโหนดให้สูงขึ้นนั่นคือการหาตัวแยกซึ่งมี 'ความแปรปรวน' ระหว่างโหนดสูงและ 'ความแปรปรวน' ของโหนดภายในขนาดเล็ก IncNodePurity นั้นมีความลำเอียงและควรใช้เฉพาะเมื่อเวลาคำนวณพิเศษของการคำนวณ% IncmsE นั้นไม่สามารถยอมรับได้ เนื่องจากใช้เวลาเพิ่มประมาณ 5-25% ในการคำนวณ% IncmsE สิ่งนี้แทบจะไม่เกิดขึ้นเลย

คำถามและคำตอบที่คล้ายกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.