ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?


12

ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น

ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ


1
ฉันพบว่าโพสต์นี้มีประโยชน์ใน Cramer's V และ Chi squared statistic
KarthikS

คำตอบ:


18

เทคนิคการคำนวณ dis (ความคล้ายคลึงกัน) วัดระหว่างบุคคลในคุณลักษณะที่ระบุโปรแกรมส่วนใหญ่ก่อน recode ตัวแปรแต่ละตัวลงในชุดของตัวแปรไบนารีdummyและจากนั้นคำนวณการวัดบางอย่างสำหรับตัวแปรไบนารี นี่คือสูตรของบางส่วนที่ใช้บ่อยไบนารีคล้ายคลึงกันและแตกต่างกันมาตรการ

ตัวแปรจำลองคืออะไร (เรียกอีกอย่างหนึ่งว่าร้อน) ด้านล่างนี้คือบุคคล 5 คนตัวแปรระบุสองรายการ (A พร้อม 3 หมวดหมู่ B พร้อม 2 หมวดหมู่) 3 Dummies สร้างขึ้นแทนที่ A, 2 Dummies สร้างแทนที่ B

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(ไม่จำเป็นต้องกำจัดตัวแปรดัมมี่หนึ่งตัวเป็น "ซ้ำซ้อน" เนื่องจากโดยทั่วไปแล้วเราจะทำมันในการถดถอยกับดัมมี่มันไม่ได้ฝึกฝนในการรวมกลุ่มแม้ว่าในสถานการณ์พิเศษที่คุณอาจพิจารณาตัวเลือกนั้น)

มีมาตรการมากมายสำหรับตัวแปรไบนารีอย่างไรก็ตามไม่ใช่ทั้งหมดที่เหมาะสมตามหลักเหตุผลของตัวแปรไบนารีหลอกตา คุณจะเห็นว่าตัวแปรที่ระบุความจริง "บุคคลที่ 2 นั้นเข้าคู่กัน" และข้อเท็จจริงที่ว่า "บุคคลที่ 2 ไม่ตรงกัน" นั้นมีความสำคัญเท่ากัน แต่พิจารณานิยม Jaccard วัดaa+b+c

  • a - จำนวนของหุ่น 1 สำหรับทั้งสองบุคคล
  • b - จำนวนของหุ่น 1 สำหรับสิ่งนี้และ 0 สำหรับสิ่งนั้น
  • c - จำนวนของหุ่น 0 สำหรับสิ่งนี้และ 1 สำหรับสิ่งนั้น
  • d - จำนวนของ dummies 0 สำหรับทั้งคู่

bcaa2a2a+b+cระยะทาง ดูคำพ้องความหมายหลายคำ - คุณแน่ใจว่าจะพบบางสิ่งที่อยู่ในซอฟต์แวร์

ความถูกต้องตามสัญชาตญาณของสัมประสิทธิ์ความคล้ายคลึงกันของลูกเต๋ามาจากข้อเท็จจริงที่ว่ามันเป็นเพียงสัดส่วนการเกิดขึ้นร่วม (หรือข้อตกลงที่เกี่ยวข้อง ) สำหรับตัวอย่างข้อมูลข้างต้นใช้คอลัมน์ที่ระบุAและคำนวณ5x5เมทริกซ์สมมาตรสแควร์ด้วย1(บุคคลทั้งสองตกอยู่ในหมวดหมู่เดียวกัน) หรือ0(ไม่อยู่ในหมวดหมู่เดียวกัน) Compute Bเช่นเดียวกันเมทริกซ์สำหรับ

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

รวมรายการที่เกี่ยวข้องของเมทริกซ์สองตัวและหารด้วย 2 (จำนวนตัวแปรที่กำหนด) - ที่นี่คุณอยู่กับเมทริกซ์ของสัมประสิทธิ์ Dice (ดังนั้นจริงคุณไม่ได้มีการสร้างหุ่นเพื่อคำนวณลูกเต๋ากับการดำเนินงานของเมทริกซ์ที่คุณอาจจะทำมันได้เร็วขึ้นวิธีการอธิบายเพียง.) ดูหัวข้อที่เกี่ยวข้องในลูกเต๋าสำหรับการเชื่อมโยงของเล็กน้อยattribures

Albeit Dice เป็นตัวชี้วัดที่ชัดเจนที่สุดที่จะใช้เมื่อคุณต้องการฟังก์ชั่นความคล้ายคลึงกัน (dis) ระหว่างกรณีที่คุณลักษณะเป็นหมวดหมู่สามารถใช้การวัดแบบไบนารีอื่น ๆ ได้หากพบว่าสูตรของพวกเขาตรงตามข้อควรพิจารณาเกี่ยวกับข้อมูลเล็กน้อย

a+da+b+c+dddb+cdd2=p(1SM)p

แต่ ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

เนื่องจากในหลาย ๆ แอพพลิเคชั่นของเมทริกซ์ความใกล้ชิดเช่นในหลาย ๆ วิธีของการวิเคราะห์กลุ่มผลลัพธ์จะไม่เปลี่ยนแปลงหรือจะเปลี่ยนได้อย่างราบรื่นภายใต้การแปลงเชิงเส้น (และบางครั้งแม้ภายใต้โมโนโทนิก) มาตรการไบนารีนอกเหนือจากลูกเต๋าเพื่อให้ได้ผลลัพธ์ที่เหมือนกันหรือคล้ายกัน แต่ก่อนอื่นคุณควรพิจารณา / สำรวจวิธีการเฉพาะ (ตัวอย่างเช่นการเชื่อมโยงในการจัดกลุ่มแบบลำดับชั้น) ตอบสนองต่อการเปลี่ยนแปลงของความใกล้เคียงที่กำหนด

หากการวางแผนการจัดกลุ่มหรือการวิเคราะห์ MDS มีความไวต่อการแปลงระยะทางแบบโมโนโทนิกคุณควรละเว้นจากการใช้มาตรการที่ระบุว่า "monotonic" ในตารางด้านบน (และดังนั้นใช่ไม่ใช่ความคิดที่ดี แอตทริบิวต์เดิมคือแอตทริบิวต์)


ใช่คุณพูดถูกค่า .. ดังนั้นหนึ่งคุณลักษณะมีสามค่าที่เป็นไปได้
Jane Doe

2
สมมติว่าฉันมีค่าสองค่าของคุณลักษณะเดียวกันคือ "ball", "nall", "pall" และฉันแปลงค่านี้เป็น 11 01 และ 00 ฉันต้องการวัดระยะทาง Jaccard ระหว่าง 11 ถึง 00 ในกรณีนี้คือ ระยะทาง 1? ตั้งแต่ a = 0 b = 2 c = 0 และ d = 0? โปรดแจ้งให้เราทราบ!
Jane Doe

ฉันพลาดจุดแสดงความคิดเห็นล่าสุดของคุณ โปรดถามอย่างชัดเจน หรือใช้ข้อมูลตัวอย่างข้างต้นของฉันกับ 5 คนและ 2 คุณสมบัติระบุและบอกคนที่คุณต้องการให้ฉันเพื่อเปรียบเทียบและตามสิ่งที่วัด (ความคล้ายคลึงกัน)
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.