เหตุผลของฉันคือเพราะตัวแปรเสียงเหล่านี้ไม่ได้ให้ผลประโยชน์สูงสุดเลยพวกเขาจะไม่ถูกเลือกดังนั้นพวกเขาจึงไม่ส่งผลต่อการเติบโตของต้นไม้
นี่เป็นเพียงการแก้ไขอย่างสมบูรณ์แบบสำหรับชุดข้อมูลขนาดใหญ่ใกล้กับอนันต์จำนวนชุดตัวอย่างในชุดฝึกอบรมของคุณให้ความครอบคลุมที่ดีในทุกรูปแบบ ในทางปฏิบัติด้วยขนาดที่เพียงพอคุณจะได้รับเสียงการสุ่มตัวอย่างมากเนื่องจากการครอบคลุมตัวอย่างที่เป็นไปได้นั้นจะยิ่งทำให้มิติข้อมูลของคุณอ่อนแอลง
เสียงรบกวนของตัวแปรที่อ่อนแอซึ่งสิ้นสุดลงโดยมีความสัมพันธ์กับโอกาสกับตัวแปรเป้าหมายสามารถ จำกัด ประสิทธิภาพของการเพิ่มอัลกอริธึมและสิ่งนี้สามารถเกิดขึ้นได้ง่ายขึ้นในการแยกเชิงลึกในแผนภูมิการตัดสินใจซึ่งข้อมูลที่ถูกประเมินได้ถูกจัดกลุ่มย่อยแล้ว
ยิ่งคุณเพิ่มตัวแปรมากเท่าไหร่ก็ยิ่งมีโอกาสมากขึ้นเท่านั้นที่คุณจะได้รับตัวแปรที่มีความสัมพันธ์ต่ำซึ่งเกิดขึ้นเพื่อให้ดูดีกับอัลกอริทึมการเลือกแยกสำหรับชุดค่าผสมเฉพาะบางชุดซึ่งจะสร้างต้นไม้ที่เรียนรู้เสียงดังแทนสัญญาณที่ตั้งใจ พูดคุยไม่ดี
ในทางปฏิบัติฉันพบ XGBoost ค่อนข้างแข็งแกร่งต่อเสียงรบกวนในระดับน้อย อย่างไรก็ตามฉันยังพบว่าบางครั้งมันจะเลือกตัวแปรวิศวกรรมที่มีคุณภาพต่ำตามความต้องการของข้อมูลที่มีความสัมพันธ์ดีกว่าด้วยเหตุผลที่คล้ายกัน ดังนั้นจึงไม่ใช่อัลกอริทึมที่ "ยิ่งตัวแปรดีกว่าสำหรับ XGBoost" และคุณจำเป็นต้องใส่ใจกับคุณสมบัติคุณภาพต่ำที่เป็นไปได้