การสุ่มใหม่เช่นทำในระหว่างการตรวจสอบความถูกต้องแบบข้าม -fold (ซ้ำ) สร้างชุดข้อมูล "ใหม่" ที่แตกต่างจากชุดข้อมูลดั้งเดิมโดยการลบบางกรณีk
เพื่อความสะดวกในการอธิบายและความชัดเจนฉันจะบูตการจัดกลุ่ม
โดยทั่วไปคุณสามารถใช้การจัดกลุ่มที่ถูกสุ่มใหม่ดังกล่าวเพื่อวัดความเสถียรของโซลูชันของคุณ: มันแทบจะไม่เปลี่ยนแปลงเลยหรือเปลี่ยนไปอย่างสิ้นเชิงหรือไม่?
แม้ว่าคุณจะไม่มีความจริงที่แน่นอนคุณสามารถเปรียบเทียบการจัดกลุ่มที่เป็นผลมาจากการทำงานที่แตกต่างกันของวิธีการเดียวกัน (การสุ่มตัวอย่างใหม่) หรือผลลัพธ์ของอัลกอริทึมการจัดกลุ่มที่แตกต่างกันเช่นโดยทำเป็นตาราง:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
คำสั่งของพวกเขาสามารถเปลี่ยนโดยพลการ แต่นั่นหมายความว่าคุณได้รับอนุญาตให้เปลี่ยนคำสั่งเพื่อให้กลุ่มสอดคล้องกัน จากนั้นองค์ประกอบเส้นทแยงมุม * จะนับจำนวนเคสที่กำหนดให้กับคลัสเตอร์เดียวกันและองค์ประกอบนอกแนวทแยงมุมแสดงในลักษณะที่การเปลี่ยนแปลงการมอบหมาย:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
ฉันจะบอกว่า resampling นั้นดีเพื่อสร้างความเสถียรของการจัดกลุ่มของคุณในแต่ละวิธี หากไม่เป็นเช่นนั้นมันก็ไม่สมเหตุสมผลนักที่จะเปรียบเทียบผลลัพธ์กับวิธีอื่น ๆ
* ทำงานร่วมกับเมทริกซ์ที่ไม่ได้เป็นสแควร์ได้หากมีจำนวนคลัสเตอร์ที่แตกต่างกัน จากนั้นฉันก็จะจัดตำแหน่งเพื่อให้องค์ประกอบที่มีความหมายของเส้นทแยงมุมอดีต แถว / คอลัมน์พิเศษนั้นจะแสดงว่าคลัสเตอร์ใดได้รับคลัสเตอร์จากคลัสเตอร์ใดi,i
คุณไม่ได้ทำการตรวจสอบไขว้แบบ k-fold และการจัดกลุ่ม k-mean ใช่ไหม?