ต้นไม้ไล่ระดับสีไล่ระดับสี:“ ยิ่งตัวแปรยิ่งดี”


11

จากบทช่วยสอนของ XGBoost ฉันคิดว่าเมื่อแต่ละต้นโตขึ้นตัวแปรทั้งหมดจะถูกสแกนเพื่อเลือกให้แยกปมและเลือกอันที่มีการแยกเกนสูงสุด ดังนั้นคำถามของฉันคือถ้าฉันเพิ่มตัวแปรเสียงลงในชุดข้อมูลตัวแปรเสียงเหล่านี้จะมีผลต่อการเลือกตัวแปร (สำหรับการปลูกต้นไม้แต่ละต้น) หรือไม่ เหตุผลของฉันคือเพราะตัวแปรเสียงเหล่านี้ไม่ได้ให้ผลประโยชน์สูงสุดเลยพวกเขาจะไม่ถูกเลือกดังนั้นพวกเขาจึงไม่ส่งผลต่อการเติบโตของต้นไม้

ถ้าคำตอบคือใช่มันเป็นความจริงหรือไม่ที่ "ยิ่งตัวแปรยิ่งดีสำหรับ XGBoost มากขึ้น" อย่ามาพิจารณาเวลาฝึก

นอกจากนี้หากคำตอบคือใช่ก็เป็นความจริงที่ว่า "เราไม่จำเป็นต้องกรองตัวแปรที่ไม่สำคัญออกจากตัวแบบ"

ขอบคุณ!

คำตอบ:


12

เหตุผลของฉันคือเพราะตัวแปรเสียงเหล่านี้ไม่ได้ให้ผลประโยชน์สูงสุดเลยพวกเขาจะไม่ถูกเลือกดังนั้นพวกเขาจึงไม่ส่งผลต่อการเติบโตของต้นไม้

นี่เป็นเพียงการแก้ไขอย่างสมบูรณ์แบบสำหรับชุดข้อมูลขนาดใหญ่ใกล้กับอนันต์จำนวนชุดตัวอย่างในชุดฝึกอบรมของคุณให้ความครอบคลุมที่ดีในทุกรูปแบบ ในทางปฏิบัติด้วยขนาดที่เพียงพอคุณจะได้รับเสียงการสุ่มตัวอย่างมากเนื่องจากการครอบคลุมตัวอย่างที่เป็นไปได้นั้นจะยิ่งทำให้มิติข้อมูลของคุณอ่อนแอลง

เสียงรบกวนของตัวแปรที่อ่อนแอซึ่งสิ้นสุดลงโดยมีความสัมพันธ์กับโอกาสกับตัวแปรเป้าหมายสามารถ จำกัด ประสิทธิภาพของการเพิ่มอัลกอริธึมและสิ่งนี้สามารถเกิดขึ้นได้ง่ายขึ้นในการแยกเชิงลึกในแผนภูมิการตัดสินใจซึ่งข้อมูลที่ถูกประเมินได้ถูกจัดกลุ่มย่อยแล้ว

ยิ่งคุณเพิ่มตัวแปรมากเท่าไหร่ก็ยิ่งมีโอกาสมากขึ้นเท่านั้นที่คุณจะได้รับตัวแปรที่มีความสัมพันธ์ต่ำซึ่งเกิดขึ้นเพื่อให้ดูดีกับอัลกอริทึมการเลือกแยกสำหรับชุดค่าผสมเฉพาะบางชุดซึ่งจะสร้างต้นไม้ที่เรียนรู้เสียงดังแทนสัญญาณที่ตั้งใจ พูดคุยไม่ดี

ในทางปฏิบัติฉันพบ XGBoost ค่อนข้างแข็งแกร่งต่อเสียงรบกวนในระดับน้อย อย่างไรก็ตามฉันยังพบว่าบางครั้งมันจะเลือกตัวแปรวิศวกรรมที่มีคุณภาพต่ำตามความต้องการของข้อมูลที่มีความสัมพันธ์ดีกว่าด้วยเหตุผลที่คล้ายกัน ดังนั้นจึงไม่ใช่อัลกอริทึมที่ "ยิ่งตัวแปรดีกว่าสำหรับ XGBoost" และคุณจำเป็นต้องใส่ใจกับคุณสมบัติคุณภาพต่ำที่เป็นไปได้


ดีมาก. ขอบคุณ! คุณคิดว่าการเลือกคุณสมบัติก่อนที่จะทำการติดตั้ง XGBoost นั้นจำเป็นหรือไม่ขึ้นอยู่กับประสบการณ์ของคุณ?
WCMC

@ Frank: บางที คุณสามารถเริ่มต้นด้วยชุดเต็มของคุณสมบัติอย่างเท่าเทียมกันและใช้รายงานความสำคัญของตัวแปร xgboost เพื่อช่วยเหลือคุณ โดยทั่วไปแล้ว XGBoost ไม่ได้ช่วยคุณอย่างสมบูรณ์จากข้อกังวลทั่วไปเกี่ยวกับการเลือกคุณสมบัติและวิศวกรรม
Neil Slater

สวัสดี @ Neil โปรดดูที่datascience.stackexchange.com/questions/17288/…เมื่อใดก็ตามที่คุณมีโอกาส ขอบคุณ.
WCMC

@ Frank: ฉันทำไปแล้วเมื่อวานและทิ้งคำถามเพื่อความกระจ่างเพราะตัวเลขดูเหมือนน้อย
Neil Slater

สวัสดี @Neil เนื่องจากผู้โพสต์ก่อนหน้านี้ไม่ตอบคำถามของคุณฉันโพสต์ใหม่ที่นี่พร้อมโปรเจคของฉันเอง ฉันยังให้ชุดข้อมูลและสคริปต์ R ที่นั่นซึ่งฉันหวังว่าจะสะดวกกว่าสำหรับผู้อื่นที่จะเข้าใจปัญหา ฉันขอขอบคุณถ้าคุณชอบที่จะให้ความช่วยเหลือ
WCMC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.