คำถามของฉัน:ทำไมป่าสุ่มพิจารณาย่อยสุ่มของคุณสมบัติสำหรับการแยกในระดับโหนดภายในแต่ละต้นไม้มากกว่าในระดับต้นไม้ ?
ข้อมูลประกอบ:นี่เป็นคำถามเชิงประวัติ ดีบุกกามโฮตีพิมพ์บทความนี้เกี่ยวกับการสร้าง "ป่าตัดสินใจ" โดยการสุ่มเลือกชุดย่อยของคุณสมบัติที่จะใช้สำหรับการเติบโตในแต่ละต้นไม้ในปี 1998 หลายปีต่อมาในปี 2001 ลีโอเบรแมนตีพิมพ์สุ่มป่าเขาน้ำเชื้อกระดาษประเด็นเซตคุณลักษณะแบบสุ่ม เลือกที่แต่ละโหนดภายในแต่ละต้นไม่ใช่ที่แต่ละต้น ในขณะที่ Breiman อ้างถึง Ho เขาไม่ได้อธิบายการย้ายจากระดับต้นไม้ไปเป็นการเลือกคุณลักษณะแบบสุ่มในระดับโหนด
ฉันสงสัยว่าอะไรเป็นแรงจูงใจในการพัฒนานี้โดยเฉพาะ ดูเหมือนว่าการเลือกชุดย่อยคุณลักษณะที่ระดับต้นไม้จะยังคงบรรลุความสัมพันธ์ที่ต้องการของต้นไม้
ทฤษฎีของฉัน:ฉันไม่ได้เห็นสิ่งนี้พูดชัดแจ้งที่อื่น แต่ดูเหมือนว่าวิธีการย่อยแบบสุ่มจะมีประสิทธิภาพน้อยกว่าในแง่ของการประเมินความสำคัญของคุณลักษณะ เพื่อให้ได้การประมาณค่าความสำคัญของตัวแปรสำหรับต้นไม้แต่ละต้นคุณลักษณะจะได้รับการพิจารณาแบบสุ่มทีละตัวและการเพิ่มขึ้นของการจำแนกประเภทหรือเพิ่มข้อผิดพลาดสำหรับการสำรวจนอกถุงจะถูกบันทึก ตัวแปรที่การจำแนกประเภทผิดพลาดหรือเพิ่มข้อผิดพลาดเป็นผลมาจากการเปลี่ยนแปลงแบบสุ่มนี้มีค่าสูงคือตัวแปรที่มีความสำคัญที่สุด
ถ้าเราใช้วิธีการสุ่มสเปซสำหรับแต่ละต้นไม้เราเป็นเพียงการพิจารณาของพีคุณลักษณะ มันอาจใช้เวลาหลายต้นที่จะต้องพิจารณาทุกหน้าทำนายแม้แต่ครั้งเดียว ในทางกลับกันถ้าเราพิจารณาส่วนย่อยที่แตกต่างกันมผมของพีให้บริการในแต่ละโหนดเราจะพิจารณาแต่ละคุณลักษณะครั้งมากขึ้นหลังจากที่ต้นไม้น้อยลงทำให้เราประมาณการที่แข็งแกร่งมากขึ้นมีความสำคัญคุณลักษณะ
สิ่งที่ฉันได้ดูไปแล้ว:จนถึงตอนนี้ฉันได้อ่านกระดาษของ Breiman และกระดาษของ Ho แล้วทำการค้นหาออนไลน์แบบกว้าง ๆ เพื่อเปรียบเทียบวิธีต่างๆโดยไม่ต้องค้นหาคำตอบที่ชัดเจน โปรดทราบว่าคำถามที่คล้ายกันถูกถามก่อน คำถามนี้จะเพิ่มเติมอีกเล็กน้อยโดยรวมถึงการเก็งกำไรของฉัน / ทำงานเพื่อแก้ไขปัญหาที่เป็นไปได้ ฉันจะสนใจคำตอบการอ้างอิงที่เกี่ยวข้องหรือการศึกษาแบบจำลองเปรียบเทียบสองแนวทาง หากไม่มีการเตรียมพร้อมฉันวางแผนที่จะทำการจำลองสถานการณ์ของตัวเองโดยเปรียบเทียบทั้งสองวิธี