อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจอย่างไรจัดการกับค่าที่หายไป (ใต้ฝากระโปรง)

อะไรคือวิธีที่อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจใช้เพื่อจัดการกับค่าที่หายไป

พวกเขาเพียงแค่เต็มช่องในการใช้ค่าที่เรียกว่าหายไป?

ขอบคุณ

missing-data cart

มีหลายวิธีที่ใช้ในต้นไม้ตัดสินใจ เพียงแค่ละเว้นค่าที่หายไป (เช่น ID3 และอัลกอริทึมเก่าอื่น ๆ ) หรือรักษาค่าที่หายไปเป็นหมวดหมู่อื่น (ในกรณีที่มีคุณสมบัติเล็กน้อย) ไม่ใช่การจัดการค่าที่หายไปจริง อย่างไรก็ตามวิธีการเหล่านั้นถูกนำมาใช้ในช่วงแรกของการพัฒนาต้นไม้ตัดสินใจ

วิธีการจัดการที่แท้จริงกับข้อมูลที่หายไปไม่ได้ใช้จุดข้อมูลที่มีค่าที่ขาดหายไปในการประเมินการแยก อย่างไรก็ตามเมื่อโหนดลูกถูกสร้างและฝึกฝนอินสแตนซ์เหล่านั้นจะถูกแจกจ่ายอย่างใด

ฉันรู้เกี่ยวกับวิธีการต่อไปนี้เพื่อแจกจ่ายอินสแตนซ์ค่าที่หายไปไปยังโหนดลูก:

ทั้งหมดไปที่โหนดที่มีจำนวนอินสแตนซ์มากที่สุดอยู่แล้ว (CART ไม่ใช่กฎหลัก)
แจกจ่ายให้กับเด็กทุกคน แต่มีน้ำหนักลดลงตามสัดส่วนกับจำนวนอินสแตนซ์จากโหนดลูกแต่ละโหนด (C45 และอื่น ๆ )
แจกจ่ายแบบสุ่มไปที่โหนดลูกเดียวเพียงครั้งเดียวในที่สุดตามการกระจายอย่างมีนัยสำคัญ (ฉันได้เห็นว่าในการใช้งานที่หลากหลายของ C45 และ CART สำหรับเวลาทำงานที่เร็วขึ้น)
สร้างจัดเรียงและใช้ตัวแทนเสมือนเพื่อแจกจ่ายอินสแตนซ์ไปยังโหนดชายด์โดยที่ตัวแทนเสมือนเป็นคุณลักษณะอินพุตซึ่งคล้ายกับวิธีที่คุณลักษณะทดสอบส่งอินสแตนซ์ข้อมูลไปยังโหนดลูกซ้ายหรือขวา (CART ถ้าล้มเหลวจะใช้กฎส่วนใหญ่)

— rapaio
แหล่งที่มา