ฉันไม่เคยพบข้อความหรือตัวอย่างที่ดีเกี่ยวกับวิธีจัดการข้อมูล 'ไม่มีอยู่จริง' สำหรับอินพุตไปยังตัวจําแนกประเภทใด ๆ ฉันได้อ่านข้อมูลที่ขาดหายไปมากมาย แต่สิ่งที่สามารถทำได้เกี่ยวกับข้อมูลที่ไม่สามารถหรือไม่มีอยู่ที่เกี่ยวข้องกับอินพุตหลายตัวแปร ฉันเข้าใจว่านี่เป็นคำถามที่ซับซ้อนมากและจะแตกต่างกันไปขึ้นอยู่กับวิธีการฝึกอบรมที่ใช้ ...
เช่นถ้าพยายามทำนายเวลาวิ่งสำหรับนักวิ่งหลายคนด้วยข้อมูลที่แม่นยำดี ตัวแปรที่เป็นไปได้ในหลาย ๆ ปัจจัย ได้แก่ :
- ตัวแปรอินพุต - นักวิ่งครั้งแรก (Y / N)
- ตัวแปรอินพุต - รอบเวลาก่อนหน้า (0 - 500 วินาที)
- ตัวแปรอินพุต - อายุ
- ตัวแปรอินพุต - ความสูง . . ตัวแปรอินพุตอื่น ๆ อีกมากมาย
& เอาท์พุททำนาย - เวลาที่คาดการณ์ไว้ Laptime (0 - 500 วินาที)
'ตัวแปรที่ขาดหายไป' สำหรับ '2. รอบเวลาก่อนหน้า' สามารถคำนวณได้หลายวิธี แต่ '1 นักวิ่งครั้งแรก 'เสมอเท่ากับ N แต่สำหรับ 'ข้อมูลที่ไม่มีอยู่จริง' สำหรับนักวิ่งครั้งแรก (โดยที่ '1. นักวิ่งครั้งแรก' = Y) ฉันควรให้ความสำคัญกับการรักษาแบบใดกับ '2 รอบก่อนหน้า '
ตัวอย่างเช่นการกำหนด '2 รอบเวลาก่อนหน้า '-99 หรือ 0 สามารถเบี่ยงเบนการกระจายอย่างมากและทำให้ดูเหมือนว่านักวิ่งใหม่ทำงานได้ดี
วิธีการฝึกอบรมปัจจุบันของฉันใช้การถดถอยโลจิสติก, SVM, NN และต้นไม้การตัดสินใจ