เธรดเก่า แต่ฉันไม่เห็นด้วยกับคำสั่งแบบครอบคลุมว่า collinearity ไม่ใช่ปัญหากับโมเดลฟอเรสต์แบบสุ่ม เมื่อชุดข้อมูลมีคุณสมบัติสองอย่างที่มีความสัมพันธ์กัน (หรือมากกว่า) จากมุมมองของแบบจำลองคุณลักษณะใด ๆ ที่สัมพันธ์กันเหล่านี้สามารถใช้เป็นตัวทำนายได้
อย่างไรก็ตามเมื่อใช้หนึ่งในนั้นความสำคัญของผู้อื่นจะลดลงอย่างมีนัยสำคัญเนื่องจากประสิทธิภาพที่บริสุทธิ์ที่พวกเขาสามารถกำจัดได้ถูกลบออกไปแล้วโดยคุณสมบัติแรก
ผลก็คือพวกเขาจะมีความสำคัญในการรายงานที่ต่ำกว่า นี่ไม่ใช่ปัญหาเมื่อเราต้องการใช้การเลือกคุณสมบัติเพื่อลดการ overfitting เนื่องจากเหมาะสมที่จะลบคุณลักษณะที่ส่วนใหญ่ทำซ้ำโดยคุณสมบัติอื่น ๆ แต่เมื่อตีความข้อมูลมันอาจนำไปสู่ข้อสรุปที่ไม่ถูกต้องว่าหนึ่งในตัวแปรนั้นคือ ตัวพยากรณ์ที่แข็งแกร่งในขณะที่คนอื่น ๆ ในกลุ่มเดียวกันนั้นไม่สำคัญ แต่จริงๆแล้วพวกเขามีความสัมพันธ์ใกล้ชิดกับตัวแปรตอบสนองมาก
ผลของปรากฏการณ์นี้จะลดลงเนื่องจากการเลือกคุณสมบัติแบบสุ่มในการสร้างแต่ละโหนด แต่โดยทั่วไปแล้วเอฟเฟกต์จะไม่ถูกลบออกอย่างสมบูรณ์
ข้างต้นส่วนใหญ่ cribbed จากที่นี่: การเลือกคุณสมบัติที่ดี
multicollinearity
ว่าไม่มีผลกระทบกับโมเดลฟอเรสต์แบบสุ่ม ตัวอย่างเช่นที่นี่คำตอบที่ถูกโหวตมากที่สุดกล่าวว่า "ไม่มีส่วนใดของโมเดลฟอเรสต์แบบสุ่มที่ได้รับอันตรายจากตัวแปร collinear สูง" สิ่งนี้มีความถูกต้องหรือไม่?