การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean


19

มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?


1
คุณจะกำหนด "สำคัญ / เด่น" อย่างไร คุณหมายถึงมีประโยชน์มากที่สุดในการแยกแยะระหว่างกลุ่ม?
Franck Dernoncourt

3
ใช่สิ่งที่มีประโยชน์ที่สุดคือสิ่งที่ฉันหมายถึง ฉันคิดว่าส่วนหนึ่งของปัญหาของฉันในการหาสิ่งนี้คือวิธีการพูด
user1624577

ขอขอบคุณสำหรับการชี้แจง. ระยะหนึ่งปกติจะกำหนดให้ปัญหานี้ในการเรียนรู้เครื่องเป็นตัวเลือกคุณลักษณะ
Franck Dernoncourt

คำตอบ:


8

วิธีหนึ่งในการหาปริมาณประโยชน์ของแต่ละคุณลักษณะ (= ตัวแปร = มิติ) จากหนังสือ เบิร์นส์ Robert P. และ Richard Burns วิธีการวิจัยธุรกิจและสถิติโดยใช้ SPSS ปราชญ์, 2008. ( มิเรอร์ ), ประโยชน์ถูกกำหนดโดยอำนาจการเลือกปฏิบัติของคุณสมบัติที่จะบอกกลุ่มแยกออกจากกัน

เรามักจะตรวจสอบวิธีการสำหรับแต่ละคลัสเตอร์ในแต่ละมิติโดยใช้ ANOVA เพื่อประเมินความแตกต่างของกลุ่มของเรา ตามหลักแล้วเราจะได้รับวิธีการที่แตกต่างกันอย่างมีนัยสำคัญสำหรับส่วนใหญ่หากไม่ใช่ทุกมิติที่ใช้ในการวิเคราะห์ ขนาดของค่า F ที่ดำเนินการในแต่ละมิติเป็นตัวบ่งชี้ว่าขนาดที่เกี่ยวข้องนั้นแยกแยะระหว่างกลุ่มได้ดีเพียงใด

อีกวิธีหนึ่งคือการลบคุณลักษณะเฉพาะและดูว่าสิ่งนี้ส่งผลกระทบต่อดัชนีคุณภาพภายในอย่างไร แตกต่างจากโซลูชันแรกคุณจะต้องทำซ้ำการทำคลัสเตอร์สำหรับแต่ละคุณสมบัติ (หรือชุดของคุณลักษณะ) ที่คุณต้องการวิเคราะห์

FYI:


4
มันเป็นสิ่งสำคัญมากที่จะเพิ่มว่าในบริบทนี้เราไม่ควรใช้ค่า F (หรือ p) เหล่านั้นเป็นตัวบ่งชี้นัยสำคัญทางสถิติ (เช่นสัมพัทธ์กับประชากร) แต่เป็นเพียงตัวบ่งชี้ขนาดที่แตกต่างกัน
ttnphns

3

ฉันสามารถคิดถึงความเป็นไปได้อีกสองอย่างที่มุ่งเน้นไปที่ตัวแปรที่มีความสำคัญต่อกลุ่มใด

  1. การจำแนกประเภทหลายระดับ พิจารณาวัตถุที่เป็นของสมาชิกคลัสเตอร์xของคลาสเดียวกัน (เช่นคลาส 1) และวัตถุที่เป็นสมาชิกคลัสเตอร์อื่นของคลาสที่สอง (เช่นคลาส 2) ฝึกอบรมลักษณนามเพื่อทำนายการเป็นสมาชิกคลาส (เช่นคลาส 1 กับคลาส 2) ค่าสัมประสิทธิ์ตัวแปรลักษณนามสามารถทำหน้าที่ในการประเมินความสำคัญของแต่ละตัวแปรในการจัดกลุ่มวัตถุคลัสเตอร์x ทำซ้ำวิธีการนี้สำหรับกลุ่มอื่น ๆ ทั้งหมด

  2. ความคล้ายคลึงกันของตัวแปรอินทรา - คลัสเตอร์ สำหรับทุกตัวแปรให้คำนวณความเหมือนกันโดยเฉลี่ยของแต่ละวัตถุกับเซนทรอยด์ ตัวแปรที่มีความคล้ายคลึงกันสูงระหว่างเซนทรอยด์กับวัตถุนั้นมีความสำคัญต่อกระบวนการทำคลัสเตอร์มากกว่าตัวแปรที่มีความคล้ายคลึงต่ำ แน่นอนขนาดความคล้ายคลึงกันนั้นสัมพันธ์กัน แต่ตอนนี้ตัวแปรสามารถจัดอันดับตามระดับที่พวกเขาช่วยในการจัดกลุ่มวัตถุในแต่ละกลุ่ม


0

นี่เป็นวิธีการที่ง่ายมาก โปรดทราบว่าระยะทางแบบยุคลิดระหว่างศูนย์สองคลัสเตอร์คือผลรวมของความแตกต่างแบบจัตุรัสระหว่างคุณลักษณะแต่ละอย่าง จากนั้นเราก็สามารถใช้ความแตกต่างของกำลังสองเป็นน้ำหนักสำหรับแต่ละคุณลักษณะ

ระยะทางแบบยุคลิด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.