การเปรียบเทียบการจัดกลุ่ม: ดัชนีแรนด์เทียบกับการเปลี่ยนแปลงของข้อมูล


21

ฉันสงสัยว่าถ้าใครมีความเข้าใจหรือสัญชาตญาณหลังความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและดัชนีแรนด์สำหรับการเปรียบเทียบการจัดกลุ่ม

ฉันได้อ่านบทความ "การเปรียบเทียบคลัสเตอร์ - ระยะทางจากข้อมูล " โดย Marina Melia (วารสารการวิเคราะห์หลายตัวแปร 2007) แต่นอกเหนือจากการสังเกตความแตกต่างในคำจำกัดความฉันไม่เข้าใจว่าการเปลี่ยนแปลงของข้อมูลคืออะไร จับภาพที่ดัชนีแรนด์ไม่ได้จับ

คำตอบ:


8

ความแตกต่างระหว่างทั้งสองวิธีนั้นลึกซึ้ง วิธีที่ดีที่สุดที่จะคิดเกี่ยวกับเรื่องนี้คือพิจารณาขัดแตะที่กำหนดโดยการดำเนินการแยกผสานในการทำคลัสเตอร์ มาตรการทั้งสองนี้สามารถสร้างขึ้นใหม่ได้โดยการกำหนดฟังก์ชั่นในการจัดกลุ่มแล้วกำหนดระยะห่างระหว่างการทำคลัสเตอร์สองรายการโดยสูตร:f

d(C,C)=f(C)+f(C)2f(CC)
โดยที่เป็นการเข้าร่วมของสองคลัสเตอร์ในโครงตาข่ายCC

ตอนนี้ให้และให้. การตั้งค่าให้ค่าดัชนีแรนด์และการตั้งค่าให้ค่า VIC={C1,C2,,Ck}ni=|Ci|f(C)=ni2f(C)=nilogni


ขอบคุณ Suresh! คุณรู้หรือไม่ (และวิธีการ) ความแตกต่างในสูตรเหล่านี้อธิบายว่าทำไมดัชนีแรนด์และการเปลี่ยนแปลงของการลงโทษข้อมูลที่สอดคล้องกัน (เท่าใดหนึ่ง clusterings เป็น subclustering ของอื่น ๆ ) ระหว่าง clusterings แตกต่างกัน? (ตามคำตอบของ micans'answer)
Amelio Vazquez-Reina

2
ในขณะที่ไมค์ชี้ให้เห็นดัชนีแรนด์มีพฤติกรรมเป็นกำลังสองดังนั้นจึงมีความไวต่อการเปลี่ยนแปลงในการบรรจุมากกว่าฟังก์ชั่นเอนโทรปีซึ่งใกล้เคียงกับเชิงเส้น
Suresh Venkatasubramanian

ขออภัย แต่ฉันยังไม่เห็นว่าการบรรจุมีผลต่อคำที่เป็นกำลังสองมากกว่าความคลาดเคลื่อนประเภทอื่นระหว่างการทำคลัสเตอร์อย่างไร คุณจะอธิบายเพิ่มเติมเกี่ยวกับเรื่องนี้อีกเล็กน้อยหรือไม่?
Amelio Vazquez-Reina

@ user023472 สวัสดีผู้ใช้ 023472 ฉันสนใจสิ่งที่คุณค้นพบคุณถามคำถามนี้เมื่อไม่นานมานี้ คุณได้เรียนรู้ว่าความแตกต่างระหว่างสองวิธีนี้เป็นอย่างไร? ขอบคุณ
Creatron

14

ในความคิดของฉันมีความแตกต่างอย่างมาก ดัชนี Rand ได้รับผลกระทบอย่างมากจากความละเอียดของคลัสเตอร์ที่ทำงาน ในสิ่งต่อไปนี้ฉันจะใช้ระยะทาง Mirkin ซึ่งเป็นรูปแบบที่ปรับเปลี่ยนของดัชนี Rand (ดูง่าย แต่ดูเช่น Meila) ฉันจะใช้ระยะทางแยก / เชื่อมต่อซึ่งถูกกล่าวถึงในเอกสารของ Meila บางฉบับ (ข้อจำกัดความรับผิดชอบ: เสนอโดยฉัน / ระยะทางแยก) สมมติว่าจักรวาลหนึ่งร้อยองค์ประกอบ ฉันจะใช้ Top เพื่อแสดงถึงการจัดกลุ่มที่มีกลุ่มเดียวที่มีองค์ประกอบทั้งหมดด้านล่างเพื่อแสดงถึงการจัดกลุ่มที่โหนดทั้งหมดอยู่ในชุดซิงเกิลที่แยกจากกันไปทางซ้ายเพื่อแสดงถึงการจัดกลุ่ม{{1,2, .. 10}, {11 12..20}, {21,22..30}, ... , {91,92, .. 100}} , และขวาเพื่อแสดงถึงการจัดกลุ่ม{{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ... , {10,20, .. 100}}.

สำหรับใจของฉันด้านล่างและบนสุดเป็นกลุ่มที่ซ้อนกัน (ซ้อนกัน) ในขณะที่ซ้ายและขวาเป็นกลุ่มที่ขัดแย้งกันมากที่สุด ระยะทางจากตัวชี้วัดที่กล่าวถึงสำหรับการเปรียบเทียบแบบสองคู่เหล่านี้มีดังนี้:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

มันตามมาว่า Mirkin / Rand พิจารณาคู่บนสุด - ล่างที่สอดคล้องกันมากขึ้นกว่าคู่ซ้าย - ขวาที่ขัดแย้งกันมากที่สุด นี่เป็นตัวอย่างที่แสดงให้เห็นถึงจุดสุดยอด แต่ Mirkin / Rand โดยทั่วไปได้รับผลกระทบอย่างมากจากความละเอียดของการรวมกลุ่มที่ทำงาน เหตุผลที่อ้างอิงสิ่งนี้คือความสัมพันธ์แบบสมการกำลังสองระหว่างขนาดเมทริกและขนาดคลัสเตอร์นี้อธิบายโดยข้อเท็จจริงที่ว่าการนับจำนวนคู่โหนดมีส่วนเกี่ยวข้อง ผลคือระยะทาง Mirkin เป็นระยะ Hamming ระหว่างชุดของกราฟที่สมบูรณ์ซึ่งเกิดจากการรวมกลุ่มของขอบ (นี่คือคำตอบสำหรับคำถามของคุณที่ฉันคิด)

เกี่ยวกับความแตกต่างระหว่างการเปลี่ยนแปลงของข้อมูลและการแยก / เข้าร่วมครั้งแรกมีความไวต่อสถานการณ์ความขัดแย้งบางอย่างที่ Meila แสดงให้เห็น นั่นคือการแบ่ง / เข้าร่วมพิจารณาการจับคู่ที่ดีที่สุดสำหรับแต่ละคลัสเตอร์เท่านั้นและไม่สนใจการแยกส่วนที่อาจเกิดขึ้นในส่วนที่เหลือของคลัสเตอร์นั้นในขณะที่การเปลี่ยนแปลงของข้อมูลจะรับสิ่งนี้ ที่กล่าวว่าแบ่ง / เข้าร่วมสามารถตีความได้ง่ายเช่นเดียวกับจำนวนโหนดที่ต้องย้ายเพื่อรับหนึ่งคลัสเตอร์จากอีกโหนดหนึ่งและในแง่นั้นช่วงนั้นเข้าใจได้ง่ายกว่า ในทางปฏิบัติปัญหาการแตกแฟรกเมนต์อาจไม่เหมือนกัน

แต่ละเมทริกเหล่านี้สามารถสร้างขึ้นเป็นผลรวมของระยะทางสองระยะคือระยะทางจากแต่ละคลัสเตอร์สองครั้งไปจนถึงการรวมกลุ่มย่อยที่ยิ่งใหญ่ที่สุดของพวกเขา ฉันรู้สึกว่ามันมักจะเป็นประโยชน์ในการทำงานกับส่วนต่าง ๆ เหล่านั้นมากกว่าเพียงแค่ผลรวมของพวกเขา ตารางข้างต้นจะกลายเป็น:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

ความสัมพันธ์ของการบอกรับสมาชิกระหว่างบนและล่างจะชัดเจนทันที มันมักจะเป็นประโยชน์มากที่จะทราบว่าสอง clusterings มีความสอดคล้องกัน (เช่นหนึ่ง (เกือบ) ก subclustering ของอื่น ๆ ) เช่นการผ่อนคลายของคำถามที่ว่าพวกเขาจะได้ใกล้ชิด การจัดกลุ่มสามารถอยู่ค่อนข้างไกลจากมาตรฐานทองคำ แต่ก็ยังคงสอดคล้องหรือเกือบจะสอดคล้องกัน ในกรณีเช่นนี้อาจไม่มีเหตุผลที่จะต้องพิจารณาการจัดกลุ่มที่ไม่ดีเกี่ยวกับมาตรฐานทองคำนั้น แน่นอนว่าการจัดกลุ่มแบบเล็กน้อยบนสุดและล่างจะสอดคล้องกับการจัดกลุ่มใด ๆดังนั้นจึงต้องนำมาพิจารณาด้วย

ในที่สุดฉันเชื่อว่าตัวชี้วัดเช่น Mirkin การเปลี่ยนแปลงของข้อมูลและ Split / Join เป็นเครื่องมือทางธรรมชาติที่ใช้เปรียบเทียบการจัดกลุ่ม สำหรับวิธีการใช้งานส่วนใหญ่ที่พยายามรวมความเป็นอิสระทางสถิติและถูกต้องสำหรับโอกาสนั้นมีการวางแผนและทำให้สับสนมากเกินไปแทนที่จะทำให้ชัดเจน

ตัวอย่างที่สอง พิจารณาการจัดกลุ่มคู่ต่อไปนี้: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} ด้วย C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

และ C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} ด้วย {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

ที่นี่C2สามารถเกิดขึ้นจากC1โดยการย้ายโหนด 9 และ 10 และC3สามารถเกิดขึ้นได้จากC3โดยการย้ายโหนด 11 และ 12 การเปลี่ยนแปลงทั้งสองเหมือนกัน ("ย้ายสองโหนด") ยกเว้นความจริงที่ว่าขนาดของกลุ่มที่เกี่ยวข้องนั้นแตกต่างกัน . ตารางเมทริกการจัดกลุ่มสำหรับสองตัวอย่างนี้คือ:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

จะเห็นได้ว่า Mirkin / Rand และการเปลี่ยนแปลงของข้อมูลได้รับผลกระทบจากขนาดคลัสเตอร์ (และ Mirkin ในระดับที่ใหญ่กว่านี้จะเด่นชัดมากขึ้นเมื่อขนาดของกลุ่มแยกออก) ในขณะที่ระยะทาง Split / Join ไม่ได้ (ค่าของมันคือ 4 ในขณะที่มัน "ย้าย" โหนดจากการจัดกลุ่มหนึ่งไปยังอีกเสมอผ่าน subclustering ทั่วไปที่ใหญ่ที่สุด) นี่อาจเป็นลักษณะที่ต้องการขึ้นอยู่กับสถานการณ์ การตีความอย่างง่าย ๆ ของ Split / Join (จำนวนโหนดที่จะย้าย) และความเป็นอิสระของขนาดคลัสเตอร์นั้นควรค่าแก่การตระหนักถึง ระหว่าง Mirkin กับการเปลี่ยนแปลงของข้อมูลฉันคิดว่าอันหลังนี้เป็นที่นิยมมากกว่ามาก


ขอบคุณ micans นี่ลึกซึ้งมาก ฉันไม่แน่ใจว่าฉันเข้าใจตารางที่สอง ทำไมถึงมีตัวเลขสองตัวคั่นด้วยเครื่องหมายจุลภาคสำหรับแต่ละรายการในตาราง นอกจากนี้คุณรู้หรือไม่ว่าอาร์กิวเมนต์นี้เกี่ยวข้องกับ @ Suresh อย่างไร
Amelio Vazquez-Reina

1
ถ้า A และ B เป็นการรวมกลุ่มดังนั้น d (A, B) สามารถแยกเป็น d (A, B) = d (A, X) + d (B, X) โดยที่ X คือการจัดกลุ่มที่ใหญ่ที่สุดที่เป็นการทำคลัสเตอร์ย่อยของ ทั้งสอง ในสัญกรณ์ของ Suresh เรามี d (A, B) = f (A) + f (B) -2f (X) สิ่งนี้สามารถเขียนใหม่เป็น f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X) ด้านบนฉันได้เขียนสององค์ประกอบ d (A, X) และ d (B, X) คั่นด้วยเครื่องหมายจุลภาค ความแตกต่างที่ใหญ่ที่สุดระหว่างสองโดยไกลคือลักษณะสมการกำลังสองของ Mirkin / Rand ถ้าคุณดูตัวอย่างบน / ล่างและซ้าย / ขวาระยะบนสุดล่างนั้นใหญ่มาก นี่เป็นเพราะขนาดของ Top
micans
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.