การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean

19

มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?

— user1624577
แหล่งที่มา

1

คุณจะกำหนด "สำคัญ / เด่น" อย่างไร คุณหมายถึงมีประโยชน์มากที่สุดในการแยกแยะระหว่างกลุ่ม?

— Franck Dernoncourt

3

ใช่สิ่งที่มีประโยชน์ที่สุดคือสิ่งที่ฉันหมายถึง ฉันคิดว่าส่วนหนึ่งของปัญหาของฉันในการหาสิ่งนี้คือวิธีการพูด

— user1624577

ขอขอบคุณสำหรับการชี้แจง. ระยะหนึ่งปกติจะกำหนดให้ปัญหานี้ในการเรียนรู้เครื่องเป็นตัวเลือกคุณลักษณะ

— Franck Dernoncourt

8

วิธีหนึ่งในการหาปริมาณประโยชน์ของแต่ละคุณลักษณะ (= ตัวแปร = มิติ) จากหนังสือ เบิร์นส์ Robert P. และ Richard Burns วิธีการวิจัยธุรกิจและสถิติโดยใช้ SPSS ปราชญ์, 2008. ( มิเรอร์ ), ประโยชน์ถูกกำหนดโดยอำนาจการเลือกปฏิบัติของคุณสมบัติที่จะบอกกลุ่มแยกออกจากกัน

เรามักจะตรวจสอบวิธีการสำหรับแต่ละคลัสเตอร์ในแต่ละมิติโดยใช้ ANOVA เพื่อประเมินความแตกต่างของกลุ่มของเรา ตามหลักแล้วเราจะได้รับวิธีการที่แตกต่างกันอย่างมีนัยสำคัญสำหรับส่วนใหญ่หากไม่ใช่ทุกมิติที่ใช้ในการวิเคราะห์ ขนาดของค่า F ที่ดำเนินการในแต่ละมิติเป็นตัวบ่งชี้ว่าขนาดที่เกี่ยวข้องนั้นแยกแยะระหว่างกลุ่มได้ดีเพียงใด

อีกวิธีหนึ่งคือการลบคุณลักษณะเฉพาะและดูว่าสิ่งนี้ส่งผลกระทบต่อดัชนีคุณภาพภายในอย่างไร แตกต่างจากโซลูชันแรกคุณจะต้องทำซ้ำการทำคลัสเตอร์สำหรับแต่ละคุณสมบัติ (หรือชุดของคุณลักษณะ) ที่คุณต้องการวิเคราะห์

FYI:

— Franck Dernoncourt
แหล่งที่มา

4

มันเป็นสิ่งสำคัญมากที่จะเพิ่มว่าในบริบทนี้เราไม่ควรใช้ค่า F (หรือ p) เหล่านั้นเป็นตัวบ่งชี้นัยสำคัญทางสถิติ (เช่นสัมพัทธ์กับประชากร) แต่เป็นเพียงตัวบ่งชี้ขนาดที่แตกต่างกัน

— ttnphns

3

ฉันสามารถคิดถึงความเป็นไปได้อีกสองอย่างที่มุ่งเน้นไปที่ตัวแปรที่มีความสำคัญต่อกลุ่มใด

การจำแนกประเภทหลายระดับ พิจารณาวัตถุที่เป็นของสมาชิกคลัสเตอร์xของคลาสเดียวกัน (เช่นคลาส 1) และวัตถุที่เป็นสมาชิกคลัสเตอร์อื่นของคลาสที่สอง (เช่นคลาส 2) ฝึกอบรมลักษณนามเพื่อทำนายการเป็นสมาชิกคลาส (เช่นคลาส 1 กับคลาส 2) ค่าสัมประสิทธิ์ตัวแปรลักษณนามสามารถทำหน้าที่ในการประเมินความสำคัญของแต่ละตัวแปรในการจัดกลุ่มวัตถุคลัสเตอร์x ทำซ้ำวิธีการนี้สำหรับกลุ่มอื่น ๆ ทั้งหมด
ความคล้ายคลึงกันของตัวแปรอินทรา - คลัสเตอร์ สำหรับทุกตัวแปรให้คำนวณความเหมือนกันโดยเฉลี่ยของแต่ละวัตถุกับเซนทรอยด์ ตัวแปรที่มีความคล้ายคลึงกันสูงระหว่างเซนทรอยด์กับวัตถุนั้นมีความสำคัญต่อกระบวนการทำคลัสเตอร์มากกว่าตัวแปรที่มีความคล้ายคลึงต่ำ แน่นอนขนาดความคล้ายคลึงกันนั้นสัมพันธ์กัน แต่ตอนนี้ตัวแปรสามารถจัดอันดับตามระดับที่พวกเขาช่วยในการจัดกลุ่มวัตถุในแต่ละกลุ่ม

— Gyan Veda
แหล่งที่มา

0

นี่เป็นวิธีการที่ง่ายมาก โปรดทราบว่าระยะทางแบบยุคลิดระหว่างศูนย์สองคลัสเตอร์คือผลรวมของความแตกต่างแบบจัตุรัสระหว่างคุณลักษณะแต่ละอย่าง จากนั้นเราก็สามารถใช้ความแตกต่างของกำลังสองเป็นน้ำหนักสำหรับแต่ละคุณลักษณะ

— ZillGate
แหล่งที่มา