ในความคิดของฉันมีความแตกต่างอย่างมาก ดัชนี Rand ได้รับผลกระทบอย่างมากจากความละเอียดของคลัสเตอร์ที่ทำงาน ในสิ่งต่อไปนี้ฉันจะใช้ระยะทาง Mirkin ซึ่งเป็นรูปแบบที่ปรับเปลี่ยนของดัชนี Rand (ดูง่าย แต่ดูเช่น Meila) ฉันจะใช้ระยะทางแยก / เชื่อมต่อซึ่งถูกกล่าวถึงในเอกสารของ Meila บางฉบับ (ข้อจำกัดความรับผิดชอบ: เสนอโดยฉัน / ระยะทางแยก) สมมติว่าจักรวาลหนึ่งร้อยองค์ประกอบ ฉันจะใช้ Top เพื่อแสดงถึงการจัดกลุ่มที่มีกลุ่มเดียวที่มีองค์ประกอบทั้งหมดด้านล่างเพื่อแสดงถึงการจัดกลุ่มที่โหนดทั้งหมดอยู่ในชุดซิงเกิลที่แยกจากกันไปทางซ้ายเพื่อแสดงถึงการจัดกลุ่ม{{1,2, .. 10}, {11 12..20}, {21,22..30}, ... , {91,92, .. 100}} , และขวาเพื่อแสดงถึงการจัดกลุ่ม{{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ... , {10,20, .. 100}}.
สำหรับใจของฉันด้านล่างและบนสุดเป็นกลุ่มที่ซ้อนกัน (ซ้อนกัน) ในขณะที่ซ้ายและขวาเป็นกลุ่มที่ขัดแย้งกันมากที่สุด ระยะทางจากตัวชี้วัดที่กล่าวถึงสำหรับการเปรียบเทียบแบบสองคู่เหล่านี้มีดังนี้:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
มันตามมาว่า Mirkin / Rand พิจารณาคู่บนสุด - ล่างที่สอดคล้องกันมากขึ้นกว่าคู่ซ้าย - ขวาที่ขัดแย้งกันมากที่สุด นี่เป็นตัวอย่างที่แสดงให้เห็นถึงจุดสุดยอด แต่ Mirkin / Rand โดยทั่วไปได้รับผลกระทบอย่างมากจากความละเอียดของการรวมกลุ่มที่ทำงาน เหตุผลที่อ้างอิงสิ่งนี้คือความสัมพันธ์แบบสมการกำลังสองระหว่างขนาดเมทริกและขนาดคลัสเตอร์นี้อธิบายโดยข้อเท็จจริงที่ว่าการนับจำนวนคู่โหนดมีส่วนเกี่ยวข้อง ผลคือระยะทาง Mirkin เป็นระยะ Hamming ระหว่างชุดของกราฟที่สมบูรณ์ซึ่งเกิดจากการรวมกลุ่มของขอบ (นี่คือคำตอบสำหรับคำถามของคุณที่ฉันคิด)
เกี่ยวกับความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและการแยก / เข้าร่วมครั้งแรกมีความไวต่อสถานการณ์ความขัดแย้งบางอย่างที่ Meila แสดงให้เห็น นั่นคือการแบ่ง / เข้าร่วมพิจารณาการจับคู่ที่ดีที่สุดสำหรับแต่ละคลัสเตอร์เท่านั้นและไม่สนใจการแยกส่วนที่อาจเกิดขึ้นในส่วนที่เหลือของคลัสเตอร์นั้นในขณะที่การเปลี่ยนแปลงของข้อมูลจะรับสิ่งนี้ ที่กล่าวว่าแบ่ง / เข้าร่วมสามารถตีความได้ง่ายเช่นเดียวกับจำนวนโหนดที่ต้องย้ายเพื่อรับหนึ่งคลัสเตอร์จากอีกโหนดหนึ่งและในแง่นั้นช่วงนั้นเข้าใจได้ง่ายกว่า ในทางปฏิบัติปัญหาการแตกแฟรกเมนต์อาจไม่เหมือนกัน
แต่ละเมทริกเหล่านี้สามารถสร้างขึ้นเป็นผลรวมของระยะทางสองระยะคือระยะทางจากแต่ละคลัสเตอร์สองครั้งไปจนถึงการรวมกลุ่มย่อยที่ยิ่งใหญ่ที่สุดของพวกเขา ฉันรู้สึกว่ามันมักจะเป็นประโยชน์ในการทำงานกับส่วนต่าง ๆ เหล่านั้นมากกว่าเพียงแค่ผลรวมของพวกเขา ตารางข้างต้นจะกลายเป็น:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
ความสัมพันธ์ของการบอกรับสมาชิกระหว่างบนและล่างจะชัดเจนทันที มันมักจะเป็นประโยชน์มากที่จะทราบว่าสอง clusterings มีความสอดคล้องกัน (เช่นหนึ่ง (เกือบ) ก subclustering ของอื่น ๆ ) เช่นการผ่อนคลายของคำถามที่ว่าพวกเขาจะได้ใกล้ชิด การจัดกลุ่มสามารถอยู่ค่อนข้างไกลจากมาตรฐานทองคำ แต่ก็ยังคงสอดคล้องหรือเกือบจะสอดคล้องกัน ในกรณีเช่นนี้อาจไม่มีเหตุผลที่จะต้องพิจารณาการจัดกลุ่มที่ไม่ดีเกี่ยวกับมาตรฐานทองคำนั้น แน่นอนว่าการจัดกลุ่มแบบเล็กน้อยบนสุดและล่างจะสอดคล้องกับการจัดกลุ่มใด ๆดังนั้นจึงต้องนำมาพิจารณาด้วย
ในที่สุดฉันเชื่อว่าตัวชี้วัดเช่น Mirkin การเปลี่ยนแปลงของข้อมูลและ Split / Join เป็นเครื่องมือทางธรรมชาติที่ใช้เปรียบเทียบการจัดกลุ่ม สำหรับวิธีการใช้งานส่วนใหญ่ที่พยายามรวมความเป็นอิสระทางสถิติและถูกต้องสำหรับโอกาสนั้นมีการวางแผนและทำให้สับสนมากเกินไปแทนที่จะทำให้ชัดเจน
ตัวอย่างที่สอง
พิจารณาการจัดกลุ่มคู่ต่อไปนี้:
C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} ด้วย C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
และ
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} ด้วย {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
ที่นี่C2สามารถเกิดขึ้นจากC1โดยการย้ายโหนด 9 และ 10 และC3สามารถเกิดขึ้นได้จากC3โดยการย้ายโหนด 11 และ 12 การเปลี่ยนแปลงทั้งสองเหมือนกัน ("ย้ายสองโหนด") ยกเว้นความจริงที่ว่าขนาดของกลุ่มที่เกี่ยวข้องนั้นแตกต่างกัน . ตารางเมทริกการจัดกลุ่มสำหรับสองตัวอย่างนี้คือ:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
จะเห็นได้ว่า Mirkin / Rand และการเปลี่ยนแปลงของข้อมูลได้รับผลกระทบจากขนาดคลัสเตอร์ (และ Mirkin ในระดับที่ใหญ่กว่านี้จะเด่นชัดมากขึ้นเมื่อขนาดของกลุ่มแยกออก) ในขณะที่ระยะทาง Split / Join ไม่ได้ (ค่าของมันคือ 4 ในขณะที่มัน "ย้าย" โหนดจากการจัดกลุ่มหนึ่งไปยังอีกเสมอผ่าน subclustering ทั่วไปที่ใหญ่ที่สุด) นี่อาจเป็นลักษณะที่ต้องการขึ้นอยู่กับสถานการณ์ การตีความอย่างง่าย ๆ ของ Split / Join (จำนวนโหนดที่จะย้าย) และความเป็นอิสระของขนาดคลัสเตอร์นั้นควรค่าแก่การตระหนักถึง ระหว่าง Mirkin กับการเปลี่ยนแปลงของข้อมูลฉันคิดว่าอันหลังนี้เป็นที่นิยมมากกว่ามาก