5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่