ไปงานปาร์ตี้สาย แต่นี่คือคำตอบของฉันต่อไปและเป็น "ใช่" เราควรคำนึงถึงความเสมอภาคโดยไม่คำนึงถึงรูปแบบ / วิธีการเป็นแบบเชิงเส้นหรือไม่หรืองานหลักคือการทำนายหรือการจำแนก
สมมติจำนวนโควาเรียต / คุณลักษณะที่สัมพันธ์เชิงเส้นในชุดข้อมูลและฟอเรสต์แบบสุ่มเป็นวิธีการ เห็นได้ชัดว่าการเลือกแบบสุ่มต่อโหนดอาจเลือกเฉพาะคุณลักษณะ collinear (หรือส่วนใหญ่) ซึ่งอาจ / จะส่งผลให้เกิดการแยกที่ไม่ดีและสิ่งนี้อาจเกิดขึ้นซ้ำ ๆ ดังนั้นจึงส่งผลเสียต่อประสิทธิภาพการทำงาน
ตอนนี้ฟีเจอร์คอลลิเนียร์อาจให้ข้อมูลน้อยกว่าฟีเจอร์ (ไม่ใช่คอลลิเออร์) อื่น ๆ และควรพิจารณาให้ตัดออกจากฟีเจอร์ที่ตั้งไว้ต่อไป อย่างไรก็ตามสมมติว่าฟีเจอร์นั้นมีการจัดอันดับสูงในรายการ 'ฟีเจอร์สำคัญ' ที่สร้างขึ้นโดย RF เช่นนี้จะถูกเก็บไว้ในชุดข้อมูลเพื่อเพิ่มมิติข้อมูลโดยไม่จำเป็น ดังนั้นในทางปฏิบัติฉันมักจะเป็นขั้นตอนเชิงสำรวจ (จากหลายเรื่องที่เกี่ยวข้อง) ตรวจสอบการเชื่อมโยงแบบคู่ของคุณลักษณะรวมถึงความสัมพันธ์เชิงเส้น