อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจอย่างไรจัดการกับค่าที่หายไป (ใต้ฝากระโปรง)


21

อะไรคือวิธีที่อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจใช้เพื่อจัดการกับค่าที่หายไป

พวกเขาเพียงแค่เต็มช่องในการใช้ค่าที่เรียกว่าหายไป?

ขอบคุณ

คำตอบ:


24

มีหลายวิธีที่ใช้ในต้นไม้ตัดสินใจ เพียงแค่ละเว้นค่าที่หายไป (เช่น ID3 และอัลกอริทึมเก่าอื่น ๆ ) หรือรักษาค่าที่หายไปเป็นหมวดหมู่อื่น (ในกรณีที่มีคุณสมบัติเล็กน้อย) ไม่ใช่การจัดการค่าที่หายไปจริง อย่างไรก็ตามวิธีการเหล่านั้นถูกนำมาใช้ในช่วงแรกของการพัฒนาต้นไม้ตัดสินใจ

วิธีการจัดการที่แท้จริงกับข้อมูลที่หายไปไม่ได้ใช้จุดข้อมูลที่มีค่าที่ขาดหายไปในการประเมินการแยก อย่างไรก็ตามเมื่อโหนดลูกถูกสร้างและฝึกฝนอินสแตนซ์เหล่านั้นจะถูกแจกจ่ายอย่างใด

ฉันรู้เกี่ยวกับวิธีการต่อไปนี้เพื่อแจกจ่ายอินสแตนซ์ค่าที่หายไปไปยังโหนดลูก:

  • ทั้งหมดไปที่โหนดที่มีจำนวนอินสแตนซ์มากที่สุดอยู่แล้ว (CART ไม่ใช่กฎหลัก)
  • แจกจ่ายให้กับเด็กทุกคน แต่มีน้ำหนักลดลงตามสัดส่วนกับจำนวนอินสแตนซ์จากโหนดลูกแต่ละโหนด (C45 และอื่น ๆ )
  • แจกจ่ายแบบสุ่มไปที่โหนดลูกเดียวเพียงครั้งเดียวในที่สุดตามการกระจายอย่างมีนัยสำคัญ (ฉันได้เห็นว่าในการใช้งานที่หลากหลายของ C45 และ CART สำหรับเวลาทำงานที่เร็วขึ้น)
  • สร้างจัดเรียงและใช้ตัวแทนเสมือนเพื่อแจกจ่ายอินสแตนซ์ไปยังโหนดชายด์โดยที่ตัวแทนเสมือนเป็นคุณลักษณะอินพุตซึ่งคล้ายกับวิธีที่คุณลักษณะทดสอบส่งอินสแตนซ์ข้อมูลไปยังโหนดลูกซ้ายหรือขวา (CART ถ้าล้มเหลวจะใช้กฎส่วนใหญ่)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.