มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?
มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?
คำตอบ:
วิธีหนึ่งในการหาปริมาณประโยชน์ของแต่ละคุณลักษณะ (= ตัวแปร = มิติ) จากหนังสือ เบิร์นส์ Robert P. และ Richard Burns วิธีการวิจัยธุรกิจและสถิติโดยใช้ SPSS ปราชญ์, 2008. ( มิเรอร์ ), ประโยชน์ถูกกำหนดโดยอำนาจการเลือกปฏิบัติของคุณสมบัติที่จะบอกกลุ่มแยกออกจากกัน
เรามักจะตรวจสอบวิธีการสำหรับแต่ละคลัสเตอร์ในแต่ละมิติโดยใช้ ANOVA เพื่อประเมินความแตกต่างของกลุ่มของเรา ตามหลักแล้วเราจะได้รับวิธีการที่แตกต่างกันอย่างมีนัยสำคัญสำหรับส่วนใหญ่หากไม่ใช่ทุกมิติที่ใช้ในการวิเคราะห์ ขนาดของค่า F ที่ดำเนินการในแต่ละมิติเป็นตัวบ่งชี้ว่าขนาดที่เกี่ยวข้องนั้นแยกแยะระหว่างกลุ่มได้ดีเพียงใด
อีกวิธีหนึ่งคือการลบคุณลักษณะเฉพาะและดูว่าสิ่งนี้ส่งผลกระทบต่อดัชนีคุณภาพภายในอย่างไร แตกต่างจากโซลูชันแรกคุณจะต้องทำซ้ำการทำคลัสเตอร์สำหรับแต่ละคุณสมบัติ (หรือชุดของคุณลักษณะ) ที่คุณต้องการวิเคราะห์
FYI:
ฉันสามารถคิดถึงความเป็นไปได้อีกสองอย่างที่มุ่งเน้นไปที่ตัวแปรที่มีความสำคัญต่อกลุ่มใด
การจำแนกประเภทหลายระดับ พิจารณาวัตถุที่เป็นของสมาชิกคลัสเตอร์xของคลาสเดียวกัน (เช่นคลาส 1) และวัตถุที่เป็นสมาชิกคลัสเตอร์อื่นของคลาสที่สอง (เช่นคลาส 2) ฝึกอบรมลักษณนามเพื่อทำนายการเป็นสมาชิกคลาส (เช่นคลาส 1 กับคลาส 2) ค่าสัมประสิทธิ์ตัวแปรลักษณนามสามารถทำหน้าที่ในการประเมินความสำคัญของแต่ละตัวแปรในการจัดกลุ่มวัตถุคลัสเตอร์x ทำซ้ำวิธีการนี้สำหรับกลุ่มอื่น ๆ ทั้งหมด
ความคล้ายคลึงกันของตัวแปรอินทรา - คลัสเตอร์ สำหรับทุกตัวแปรให้คำนวณความเหมือนกันโดยเฉลี่ยของแต่ละวัตถุกับเซนทรอยด์ ตัวแปรที่มีความคล้ายคลึงกันสูงระหว่างเซนทรอยด์กับวัตถุนั้นมีความสำคัญต่อกระบวนการทำคลัสเตอร์มากกว่าตัวแปรที่มีความคล้ายคลึงต่ำ แน่นอนขนาดความคล้ายคลึงกันนั้นสัมพันธ์กัน แต่ตอนนี้ตัวแปรสามารถจัดอันดับตามระดับที่พวกเขาช่วยในการจัดกลุ่มวัตถุในแต่ละกลุ่ม
นี่เป็นวิธีการที่ง่ายมาก โปรดทราบว่าระยะทางแบบยุคลิดระหว่างศูนย์สองคลัสเตอร์คือผลรวมของความแตกต่างแบบจัตุรัสระหว่างคุณลักษณะแต่ละอย่าง จากนั้นเราก็สามารถใช้ความแตกต่างของกำลังสองเป็นน้ำหนักสำหรับแต่ละคุณลักษณะ