ตัวอย่างที่เอาต์พุตของอัลกอริทึม k-medoid แตกต่างจากเอาต์พุตของอัลกอริทึม k-mean


11

ฉันเข้าใจความแตกต่างระหว่าง k medoid กับ k หมายความว่า แต่คุณสามารถยกตัวอย่างให้ฉันด้วยชุดข้อมูลขนาดเล็กที่เอาต์พุต k medoid แตกต่างจาก k หมายถึงเอาต์พุต

คำตอบ:


14

k-medoid ขึ้นอยู่กับ medoids (ซึ่งเป็นจุดที่เป็นของชุดข้อมูล) คำนวณโดยการลดระยะห่างที่แน่นอนระหว่างจุดและ centroid ที่เลือกให้น้อยที่สุดแทนที่จะลดระยะห่างของสี่เหลี่ยมจัตุรัส เป็นผลให้มีความทนทานต่อเสียงรบกวนและค่าผิดปกติมากกว่าวิธี k

นี่คือตัวอย่างง่ายๆที่คาดเดาได้ด้วย 2 กลุ่ม (ไม่สนใจสีที่ตรงกันข้าม) Kmeans vs. Kmedoids

อย่างที่คุณเห็น medoids และ centroids (ของ k-mean) จะแตกต่างกันเล็กน้อยในแต่ละกลุ่ม นอกจากนี้คุณควรทราบว่าทุกครั้งที่คุณเรียกใช้อัลกอริธึมเหล่านี้เนื่องจากจุดเริ่มต้นแบบสุ่มและลักษณะของอัลกอริธึมการย่อขนาดเล็กสุดคุณจะได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อย นี่คือการวิ่งอีกครั้ง:

ป้อนคำอธิบายรูปภาพที่นี่

และนี่คือรหัส:

library(cluster)
x <- rbind(matrix(rnorm(100, mean = 0.5, sd = 4.5), ncol = 2),
           matrix(rnorm(100, mean = 0.5, sd = 0.1), ncol = 2))
colnames(x) <- c("x", "y")

# using 2 clusters because we know the data comes from two groups cl <- kmeans(x, 2) kclus <- pam(x,2)
par(mfrow=c(1,2)) plot(x, col = kclus$clustering, main="Kmedoids Cluster") points(kclus$medoids, col = 1:3, pch = 10, cex = 4) plot(x, col = cl$cluster, main="Kmeans Cluster") points(cl$centers, col = 1:3, pch = 10, cex = 4)


1
@frc หากคุณคิดว่าคำตอบของใครบางคนไม่ถูกต้องอย่าแก้ไขเพื่อแก้ไข คุณสามารถแสดงความคิดเห็น (เมื่อตัวแทนของคุณ> 50), & / หรือ downvote ตัวเลือกที่ดีที่สุดของคุณคือโพสต์คำตอบของคุณเองด้วยสิ่งที่คุณเชื่อว่าเป็นข้อมูลที่ถูกต้อง (cf, ที่นี่ )
gung - Reinstate Monica

2
K-medoids ลดระยะทางที่เลือกไว้โดยไม่จำเป็น (ไม่จำเป็นต้องเป็นระยะทางแน่นอน) ระหว่างองค์ประกอบที่เป็นกระจุกและ medoid ที่จริงแล้วpamวิธีการ (ตัวอย่างการนำ K-medoids ใน R) มาใช้โดยค่าเริ่มต้นจะใช้ระยะทางแบบยุคลิดเป็นตัวชี้วัด K-mean ใช้ Euclidean กำลังสองเสมอ เม็ดยาใน K-medoids นั้นได้รับการคัดเลือกจากองค์ประกอบกระจุกดาวไม่ใช่จากพื้นที่จุดรวมเป็น centroids ใน K-mean
hannafrc

1
ฉันมีชื่อเสียงไม่เพียงพอที่จะแสดงความคิดเห็น แต่ต้องการพูดถึงว่ามีความผิดพลาดในแผนการของคำตอบของ Ilanman: เขาเรียกใช้รหัสทั้งหมดเช่นข้อมูลถูกแก้ไข ถ้าคุณเรียกใช้เฉพาะส่วนการจัดกลุ่มของรหัสคลัสเตอร์ค่อนข้างคงที่สำหรับ PAM จะเสถียรกว่าสำหรับวิธี k
Julien Colomb

6

เมอรอยด์จะต้องเป็นสมาชิกของชุดเซนทรอยด์ไม่ได้

โดยทั่วไปแล้ว Centroids จะถูกกล่าวถึงในบริบทของวัตถุที่เป็นของแข็งและต่อเนื่อง แต่ไม่มีเหตุผลที่เชื่อได้ว่าการขยายตัวอย่างที่ไม่ต่อเนื่องนั้นจะต้องให้ Centroid เป็นสมาชิกของชุดเดิม


1

อัลกอริทึม k-mean และ k-medoids กำลังแบ่งชุดข้อมูลออกเป็นกลุ่ม k นอกจากนี้พวกเขายังพยายามลดระยะห่างระหว่างจุดของคลัสเตอร์เดียวกันและจุดเฉพาะซึ่งเป็นศูนย์กลางของคลัสเตอร์นั้น ตรงกันข้ามกับอัลกอริธึม k-medoids อัลกอริธึม k-medoids เลือกจุดที่เป็นศูนย์ที่เป็นของ dastaset การใช้งานทั่วไปของอัลกอริทึมการจัดกลุ่ม k-medoids คืออัลกอริทึมการแบ่งพาร์ติชันรอบ ๆ Medoids (PAM) อัลกอริทึม PAM ใช้การค้นหาโลภซึ่งอาจไม่พบทางออกที่เหมาะสมทั่วโลก Medoids มีความทนทานต่อค่าผิดปกติมากกว่าเซนทรอยด์ แต่พวกมันต้องการการคำนวณที่มากขึ้นสำหรับข้อมูลมิติสูง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.