ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า
2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ)
คำถามของฉันคือ:
- เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง?
ถ้าไม่:
- ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่?
- ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่