คุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อสร้างต้นไม้ตัดสินใจโดยใช้ R หรือไม่?


10

ดังนั้นชุดข้อมูลของเราในสัปดาห์นี้มี 14 แอตทริบิวต์และแต่ละคอลัมน์มีค่าแตกต่างกันมาก คอลัมน์หนึ่งมีค่าต่ำกว่า 1 ในขณะที่อีกคอลัมน์หนึ่งมีค่าที่เปลี่ยนจากตัวเลขสามหลักเป็นสี่หลัก

เราเรียนรู้การทำให้เป็นมาตรฐานในสัปดาห์ที่แล้วและดูเหมือนว่าคุณควรจะทำให้ข้อมูลเป็นมาตรฐานเมื่อพวกเขามีค่าแตกต่างกันมาก สำหรับต้นไม้ตัดสินใจมันเหมือนกันหรือไม่?

ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ แต่การทำข้อมูลให้เป็นมาตรฐานจะส่งผลต่อโครงสร้างการตัดสินใจที่เกิดจากชุดข้อมูลเดียวกันหรือไม่ ดูเหมือนไม่ควร แต่ ...

คำตอบ:


13

ต้นไม้การตัดสินใจทั่วไปที่คุณพบส่วนใหญ่จะไม่ได้รับผลกระทบจากการแปลงเสียงเดียว ดังนั้นตราบใดที่คุณรักษา orde ต้นไม้การตัดสินใจจะเหมือนกัน (เห็นได้ชัดจากต้นไม้เดียวกันที่นี่ฉันเข้าใจโครงสร้างการตัดสินใจเดียวกันไม่ใช่ค่าเดียวกันสำหรับการทดสอบแต่ละครั้งในแต่ละโหนดของต้นไม้)

เหตุผลที่มันเกิดขึ้นเพราะฟังก์ชั่นการปนเปื้อนตามปกติ เพื่อค้นหาการแยกที่ดีที่สุดมันค้นหาแต่ละมิติ (คุณลักษณะ) จุดแยกซึ่งโดยทั่วไปแล้วเป็นถ้าประโยคที่กลุ่มเป้าหมายค่าที่สอดคล้องกับอินสแตนซ์ที่มีค่าการทดสอบน้อยกว่าค่าแยกและด้านขวาค่ามากกว่าที่เท่ากัน สิ่งนี้เกิดขึ้นสำหรับแอตทริบิวต์ที่เป็นตัวเลข (ซึ่งฉันคิดว่าเป็นกรณีของคุณเพราะฉันไม่ทราบวิธีการทำให้แอตทริบิวต์ปกติมีค่าเป็นมาตรฐาน) ตอนนี้คุณอาจทราบว่าเกณฑ์นั้นน้อยกว่าหรือมากกว่า ซึ่งหมายความว่าข้อมูลจริงจากแอ็ตทริบิวต์เพื่อหาการแยก (และต้นไม้ทั้งหมด) เป็นเพียงลำดับของค่า ซึ่งหมายความว่าตราบใดที่คุณเปลี่ยนคุณสมบัติของคุณในลักษณะที่การสั่งซื้อดั้งเดิมถูกสงวนไว้คุณจะได้รับทรีเดียวกัน

ไม่ใช่ว่าทุกรุ่นจะมีความรู้สึกไวต่อการเปลี่ยนแปลงเช่นนี้ ตัวอย่างเช่นโมเดลการถดถอยเชิงเส้นจะให้ผลลัพธ์เดียวกันถ้าคุณคูณแอตทริบิวต์ด้วยบางสิ่งที่แตกต่างจากศูนย์ คุณจะได้ค่าสัมประสิทธิ์การถดถอยที่แตกต่างกัน แต่ค่าที่ทำนายไว้จะเหมือนกัน นี่ไม่ใช่กรณีเมื่อคุณบันทึกการเปลี่ยนแปลงนั้น ดังนั้นสำหรับการถดถอยเชิงเส้นตัวอย่างเช่นการทำให้เป็นปกติจะไม่มีประโยชน์เพราะมันจะให้ผลลัพธ์เดียวกัน

อย่างไรก็ตามนี่ไม่ใช่กรณีที่มีการถดถอยเชิงเส้นที่ถูกลงโทษเช่นการถดถอยของสัน ในการถดถอยเชิงเส้นที่ถูกลงโทษจะมีการใช้ข้อ จำกัด กับค่าสัมประสิทธิ์ แนวคิดคือข้อ จำกัด ถูกนำไปใช้กับผลรวมของฟังก์ชันสัมประสิทธิ์ ทีนี้ถ้าคุณขยายคุณสมบัติขึ้นมาสัมประสิทธิ์จะยุบลงซึ่งหมายความว่าในท้ายที่สุดการปรับค่าสัมประสิทธิ์จะถูกปรับเปลี่ยนทันที ในสถานการณ์เช่นนี้คุณปรับมาตรฐานให้เป็นมาตรฐานเพื่อให้สัมประสิทธิ์แต่ละข้อถูก จำกัด อย่างเป็นธรรม

หวังว่ามันจะช่วย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.