การกำหนดเลเบลของคลาสให้กับ k-หมายถึงคลัสเตอร์


10

ฉันมีคำถามพื้นฐานมากเกี่ยวกับการทำคลัสเตอร์ หลังจากที่ฉันพบกลุ่ม k กับเซนทรอยด์ของพวกเขาฉันจะตีความคลาสของจุดข้อมูลที่ฉันได้ทำคลัสเตอร์ได้อย่างไร (การกำหนดเลเบลคลาสที่มีความหมายให้กับแต่ละคลัสเตอร์) ฉันไม่ได้พูดถึงการตรวจสอบความถูกต้องของกลุ่มที่พบ

สามารถใช้ชุดจุดข้อมูลขนาดเล็กที่มีป้ายกำกับหรือไม่คำนวณกลุ่มจุดที่มีป้ายกำกับเหล่านี้ว่าเป็นของใดและขึ้นอยู่กับประเภทและจำนวนจุดที่แต่ละกลุ่มได้รับตัดสินใจเลือกป้ายกำกับหรือไม่ ดูเหมือนจะค่อนข้างชัดเจน แต่ฉันไม่รู้ว่ามาตรฐานกำหนดป้ายกำกับให้กับกลุ่มด้วยวิธีนี้อย่างไร

เพื่อความชัดเจนฉันต้องการทำการจัดกลุ่มที่ไม่มีผู้ดูแลซึ่งไม่ได้ใช้ป้ายกำกับเพื่อค้นหากลุ่มของฉันก่อน จากนั้นเมื่อพบกลุ่มฉันต้องการกำหนดป้ายชื่อคลาสที่มีความหมายให้กับกลุ่มโดยยึดตามคุณสมบัติของดาต้าพอยน์ตัวอย่างสองสามตัวอย่าง


ฉันไม่แน่ใจว่าจะเข้าใจคำถามของคุณ: โดยปกติอัลกอริทึม k-mean ใด ๆ ควรส่งคืนข้อมูลเกี่ยวกับความเป็นสมาชิกของคลาสสำหรับแต่ละจุดข้อมูล คุณกำลังพูดถึงจุดข้อมูลจริงหรือการสังเกตใหม่หรือไม่?
chl

@chi ฉันสงสัยว่า Riyaz กังวลเกี่ยวกับการหาชื่อที่จะติดป้ายกลุ่มและกำลังพูดถึงการกำหนดชื่อบางประเด็นจากนั้นใช้อัลกอริทึมที่พิจารณาความสำคัญของชื่อที่มีชื่อในกลุ่มเพื่อตั้งชื่อกลุ่มเหล่านั้น
Glen_b -Reinstate Monica

2
@Riyaz เราสามารถใช้การวิเคราะห์ปัจจัยต่อไปนี้เพื่อทำความเข้าใจคำถามของคุณได้หรือไม่ บ่อยครั้งที่ใครบางคนจะวิเคราะห์ชุดของตัวแปรเพื่อจัดกลุ่มพวกเขาเป็นกลุ่มของตัวแปรที่ดูเหมือนว่า 'อยู่ด้วยกัน' แต่จากนั้นนักวิเคราะห์ต้องคิดเกี่ยวกับลักษณะของตัวแปรที่ประกอบกันเป็นกลุ่มเพื่อให้ได้มาซึ่งชื่อ / วิธีคิดเกี่ยวกับสิ่งที่แต่ละคลัสเตอร์ (ปัจจัย) คือ นั่นคือสิ่งที่คุณกำลังมาที่นี่หรือ
gung - Reinstate Monica

คำตอบ:


4

ใช่. สิ่งที่คุณเสนอนั้นเป็นมาตรฐานทั้งหมดและเป็นวิธีที่ซอฟต์แวร์มาตรฐาน k- หมายถึงทำงานโดยอัตโนมัติ ในกรณีของ k-หมายความว่าคุณคำนวณระยะทางแบบยุคลิดระหว่างแต่ละการสังเกต (จุดข้อมูล) และแต่ละค่าเฉลี่ยของกลุ่ม (centroid) และกำหนดการสังเกตให้กับกลุ่มที่คล้ายกันมากที่สุด จากนั้นฉลากของคลัสเตอร์จะถูกกำหนดโดยการตรวจสอบว่าค่าเฉลี่ยของการสังเกตที่จำแนกไปยังคลัสเตอร์ที่เกี่ยวข้องกับค่าเฉลี่ยของสิ่งเหล่านั้นที่เกี่ยวข้องกับกลุ่มอื่น ๆ


3

หากคุณดูชื่อในวัตถุ kmeans ของคุณคุณจะสังเกตเห็นว่ามีวัตถุ "กลุ่ม" สิ่งนี้มีเลเบลคลาสที่สั่งเหมือนกับข้อมูลอินพุตของคุณ นี่คือตัวอย่างง่ายๆที่ผูกเลเบลคลัสเตอร์กลับไปที่ข้อมูลของคุณ

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

เลเบลไปยังคลัสเตอร์อาจขึ้นอยู่กับคลาสของตัวอย่างส่วนใหญ่ภายในคลัสเตอร์ แต่นี่เป็นความจริงเฉพาะในกรณีที่จำนวนกลุ่มเท่ากับจำนวนชั้นเรียน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.