เทคนิคการคำนวณ dis (ความคล้ายคลึงกัน) วัดระหว่างบุคคลในคุณลักษณะที่ระบุโปรแกรมส่วนใหญ่ก่อน recode ตัวแปรแต่ละตัวลงในชุดของตัวแปรไบนารีdummyและจากนั้นคำนวณการวัดบางอย่างสำหรับตัวแปรไบนารี นี่คือสูตรของบางส่วนที่ใช้บ่อยไบนารีคล้ายคลึงกันและแตกต่างกันมาตรการ
ตัวแปรจำลองคืออะไร (เรียกอีกอย่างหนึ่งว่าร้อน) ด้านล่างนี้คือบุคคล 5 คนตัวแปรระบุสองรายการ (A พร้อม 3 หมวดหมู่ B พร้อม 2 หมวดหมู่) 3 Dummies สร้างขึ้นแทนที่ A, 2 Dummies สร้างแทนที่ B
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(ไม่จำเป็นต้องกำจัดตัวแปรดัมมี่หนึ่งตัวเป็น "ซ้ำซ้อน" เนื่องจากโดยทั่วไปแล้วเราจะทำมันในการถดถอยกับดัมมี่มันไม่ได้ฝึกฝนในการรวมกลุ่มแม้ว่าในสถานการณ์พิเศษที่คุณอาจพิจารณาตัวเลือกนั้น)
มีมาตรการมากมายสำหรับตัวแปรไบนารีอย่างไรก็ตามไม่ใช่ทั้งหมดที่เหมาะสมตามหลักเหตุผลของตัวแปรไบนารีหลอกตา คุณจะเห็นว่าตัวแปรที่ระบุความจริง "บุคคลที่ 2 นั้นเข้าคู่กัน" และข้อเท็จจริงที่ว่า "บุคคลที่ 2 ไม่ตรงกัน" นั้นมีความสำคัญเท่ากัน แต่พิจารณานิยม Jaccard วัดaa + b + c
- a - จำนวนของหุ่น 1 สำหรับทั้งสองบุคคล
- b - จำนวนของหุ่น 1 สำหรับสิ่งนี้และ 0 สำหรับสิ่งนั้น
- c - จำนวนของหุ่น 0 สำหรับสิ่งนี้และ 1 สำหรับสิ่งนั้น
- d - จำนวนของ dummies 0 สำหรับทั้งคู่
ขcaa2a2a+b+cระยะทาง ดูคำพ้องความหมายหลายคำ - คุณแน่ใจว่าจะพบบางสิ่งที่อยู่ในซอฟต์แวร์
ความถูกต้องตามสัญชาตญาณของสัมประสิทธิ์ความคล้ายคลึงกันของลูกเต๋ามาจากข้อเท็จจริงที่ว่ามันเป็นเพียงสัดส่วนการเกิดขึ้นร่วม (หรือข้อตกลงที่เกี่ยวข้อง ) สำหรับตัวอย่างข้อมูลข้างต้นใช้คอลัมน์ที่ระบุA
และคำนวณ5x5
เมทริกซ์สมมาตรสแควร์ด้วย1
(บุคคลทั้งสองตกอยู่ในหมวดหมู่เดียวกัน) หรือ0
(ไม่อยู่ในหมวดหมู่เดียวกัน) Compute B
เช่นเดียวกันเมทริกซ์สำหรับ
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
รวมรายการที่เกี่ยวข้องของเมทริกซ์สองตัวและหารด้วย 2 (จำนวนตัวแปรที่กำหนด) - ที่นี่คุณอยู่กับเมทริกซ์ของสัมประสิทธิ์ Dice (ดังนั้นจริงคุณไม่ได้มีการสร้างหุ่นเพื่อคำนวณลูกเต๋ากับการดำเนินงานของเมทริกซ์ที่คุณอาจจะทำมันได้เร็วขึ้นวิธีการอธิบายเพียง.) ดูหัวข้อที่เกี่ยวข้องในลูกเต๋าสำหรับการเชื่อมโยงของเล็กน้อยattribures
Albeit Dice เป็นตัวชี้วัดที่ชัดเจนที่สุดที่จะใช้เมื่อคุณต้องการฟังก์ชั่นความคล้ายคลึงกัน (dis) ระหว่างกรณีที่คุณลักษณะเป็นหมวดหมู่สามารถใช้การวัดแบบไบนารีอื่น ๆ ได้หากพบว่าสูตรของพวกเขาตรงตามข้อควรพิจารณาเกี่ยวกับข้อมูลเล็กน้อย
a+da+b+c+dddb+cdd2=p(1−SM)p
แต่ ...
d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
เนื่องจากในหลาย ๆ แอพพลิเคชั่นของเมทริกซ์ความใกล้ชิดเช่นในหลาย ๆ วิธีของการวิเคราะห์กลุ่มผลลัพธ์จะไม่เปลี่ยนแปลงหรือจะเปลี่ยนได้อย่างราบรื่นภายใต้การแปลงเชิงเส้น (และบางครั้งแม้ภายใต้โมโนโทนิก) มาตรการไบนารีนอกเหนือจากลูกเต๋าเพื่อให้ได้ผลลัพธ์ที่เหมือนกันหรือคล้ายกัน แต่ก่อนอื่นคุณควรพิจารณา / สำรวจวิธีการเฉพาะ (ตัวอย่างเช่นการเชื่อมโยงในการจัดกลุ่มแบบลำดับชั้น) ตอบสนองต่อการเปลี่ยนแปลงของความใกล้เคียงที่กำหนด
หากการวางแผนการจัดกลุ่มหรือการวิเคราะห์ MDS มีความไวต่อการแปลงระยะทางแบบโมโนโทนิกคุณควรละเว้นจากการใช้มาตรการที่ระบุว่า "monotonic" ในตารางด้านบน (และดังนั้นใช่ไม่ใช่ความคิดที่ดี แอตทริบิวต์เดิมคือแอตทริบิวต์)