การตัดสินใจปรับต้นไม้ทรีตัวแปร (คุณสมบัติ) และตัวแปร (ฟีเจอร์) การปรับมาตรฐาน


10

ในอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากการปรับขนาด (หรือที่เรียกว่าการปรับขนาดตัวแปรการทำให้เป็นมาตรฐาน) เป็นขั้นตอนการเตรียมความพร้อมร่วมกันWikipedia - Feature Scaling - คำถามนี้ปิดคำถาม # 41704 - การปรับมาตรฐานและการปรับขนาด

ฉันมีสองคำถามโดยเฉพาะเกี่ยวกับต้นไม้ตัดสินใจ:

  1. มีการใช้งานต้นไม้ตัดสินใจที่จะต้องมีการปรับขนาด? ฉันรู้สึกว่าเกณฑ์การแยกของอัลกอริทึมส่วนใหญ่ไม่ได้สัดส่วน
  2. พิจารณาตัวแปรเหล่านี้: (1) หน่วย, (2) ชั่วโมง, (3) หน่วยต่อชั่วโมง - เป็นการดีที่สุดที่จะปล่อยให้ตัวแปรทั้งสามนี้ "ตามสภาพ" เมื่อถูกป้อนเข้าสู่ต้นไม้การตัดสินใจหรือเราเจอความขัดแย้งบางประเภท เนื่องจากตัวแปร "normalized" (3) สัมพันธ์กับ (1) และ (2)? นั่นคือคุณจะโจมตีสถานการณ์นี้โดยการโยนตัวแปรทั้งสามลงในการผสมหรือคุณจะเลือกการรวมกันของทั้งสามหรือเพียงแค่ใช้คุณสมบัติ "ปกติ / มาตรฐาน" (3)?

คำตอบ:


6

สำหรับ 1 ต้นไม้ตัดสินใจโดยทั่วไปไม่จำเป็นต้องปรับขนาด อย่างไรก็ตามมันช่วยในการสร้างภาพข้อมูล / การจัดการและอาจมีประโยชน์หากคุณต้องการเปรียบเทียบประสิทธิภาพกับข้อมูลอื่นหรือวิธีการอื่นเช่น SVM

สำหรับ 2 นี่เป็นคำถามของการปรับจูน หน่วย / ชั่วโมงอาจถูกพิจารณาว่าเป็นประเภทของการโต้ตอบตัวแปรและอาจมีพลังการทำนายแตกต่างจากแต่ละคน สิ่งนี้ขึ้นอยู่กับข้อมูลของคุณจริงๆ ฉันลองด้วยและไม่เห็นว่ามีความแตกต่างหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.