การจัดกลุ่มตัวแปรตามความสัมพันธ์ระหว่างกัน


23

คำถาม:

  1. ฉันมีเมทริกซ์สหสัมพันธ์ขนาดใหญ่ แทนที่จะจัดกลุ่มความสัมพันธ์แต่ละตัวฉันต้องการจัดกลุ่มตัวแปรตามความสัมพันธ์ซึ่งกันและกันเช่นถ้าตัวแปร A และตัวแปร B มีความสัมพันธ์แบบเดียวกันกับตัวแปร C ถึง Z ดังนั้น A และ B ควรเป็นส่วนหนึ่งของคลัสเตอร์เดียวกัน ตัวอย่างชีวิตจริงที่ดีของเรื่องนี้คือประเภทสินทรัพย์ที่แตกต่างกัน - ความสัมพันธ์ภายในระดับสินทรัพย์จะสูงกว่าความสัมพันธ์ระหว่างระดับสินทรัพย์

  2. ฉันยังพิจารณาถึงการจัดกลุ่มตัวแปรในแง่ความสัมพันธ์ระหว่างพวกเขาเช่นเมื่อความสัมพันธ์ระหว่างตัวแปร A และ B ใกล้เคียงกับ 0 พวกเขาทำหน้าที่อิสระมากหรือน้อย หากจู่ๆมีการเปลี่ยนแปลงเงื่อนไขพื้นฐานและความสัมพันธ์ที่แข็งแกร่งเกิดขึ้น (บวกหรือลบ) เราสามารถคิดว่าตัวแปรทั้งสองนี้เป็นของคลัสเตอร์เดียวกัน ดังนั้นแทนที่จะมองหาความสัมพันธ์เชิงบวกเราจะมองหาความสัมพันธ์กับความสัมพันธ์ ฉันเดาว่าการเปรียบเทียบอาจเป็นกลุ่มของอนุภาคที่มีประจุบวกและลบ หากประจุลดลงเหลือ 0 อนุภาคจะลอยออกจากกระจุก อย่างไรก็ตามประจุทั้งบวกและลบดึงดูดอนุภาคให้อยู่ในกระจุกดาว

ฉันขอโทษถ้าบางอย่างไม่ชัดเจน กรุณาแจ้งให้เราทราบฉันจะชี้แจงรายละเอียดเฉพาะ


1
การวิเคราะห์ปัจจัยจะไม่ทำงานสำหรับ qn 1 หรือไม่ คำถามที่ 2 ค่อนข้างคลุมเครือ 'ความสัมพันธ์' ดูเหมือนจะเป็นคำพ้องความหมายสำหรับ 'สหสัมพันธ์' หรืออย่างน้อยหนึ่งรูปแบบของความสัมพันธ์คือความสัมพันธ์เชิงเส้นและความสัมพันธ์ที่จับที่ บางทีคุณต้องชี้แจง qn 2

คุณได้ระบุสิ่งที่คุณต้องการจะทำ คำถามของคุณคืออะไร? มันเกี่ยวกับการนำไปใช้หรือว่าแนวทางการวิเคราะห์ของคุณเหมาะสมหรือไม่? หรืออย่างอื่น?
Jeromy Anglim

คำตอบ:


14

นี่คือตัวอย่างง่ายๆใน R โดยใช้bfiชุดข้อมูล: bfi เป็นชุดข้อมูลของรายการทดสอบบุคลิกภาพ 25 รายการที่จัดเรียงประมาณ 5 ปัจจัย

library(psych)
data(bfi)
x <- bfi 

การวิเคราะห์กลุ่ม hiearchical โดยใช้ระยะ euclidan ระหว่างตัวแปรตามความสัมพันธ์แบบสัมบูรณ์ระหว่างตัวแปรสามารถรับได้เช่น:

plot(hclust(dist(abs(cor(na.omit(x))))))

ข้อความแสดงแทน dendrogram แสดงให้เห็นว่ารายการโดยทั่วไปจะรวมกลุ่มกับรายการอื่น ๆ ตามการจัดกลุ่มแบบมหาเศรษฐี (เช่น N (Neuroticism) รวมกลุ่มรายการ) นอกจากนี้ยังแสดงให้เห็นว่าบางรายการภายในกลุ่มมีความคล้ายคลึงกันมากขึ้น (เช่น C5 และ C1 อาจคล้ายกันมากกว่า C5 กับ C3) นอกจากนี้ยังชี้ให้เห็นว่าคลัสเตอร์ N นั้นมีความคล้ายคลึงกับคลัสเตอร์อื่นน้อยกว่า

หรือคุณสามารถทำการวิเคราะห์ปัจจัยมาตรฐานเช่น:

factanal(na.omit(x), 5, rotation = "Promax")


Uniquenesses:
   A1    A2    A3    A4    A5    C1    C2    C3    C4    C5    E1    E2    E3    E4    E5    N1 
0.848 0.630 0.642 0.829 0.442 0.566 0.635 0.572 0.504 0.603 0.541 0.457 0.541 0.420 0.549 0.272 
   N2    N3    N4    N5    O1    O2    O3    O4    O5 
0.321 0.526 0.514 0.675 0.625 0.804 0.544 0.630 0.814 

Loadings:
   Factor1 Factor2 Factor3 Factor4 Factor5
A1  0.242  -0.154          -0.253  -0.164 
A2                          0.570         
A3         -0.100           0.522   0.114 
A4                  0.137   0.351  -0.158 
A5         -0.145           0.691         
C1                  0.630           0.184 
C2  0.131   0.120   0.603                 
C3  0.154           0.638                 
C4  0.167          -0.656                 
C5  0.149          -0.571           0.125 
E1          0.618   0.125  -0.210  -0.120 
E2          0.665          -0.204         
E3         -0.404           0.332   0.289 
E4         -0.506           0.555  -0.155 
E5  0.175  -0.525   0.234           0.228 
N1  0.879  -0.150                         
N2  0.875  -0.152                         
N3  0.658                                 
N4  0.406   0.342  -0.148           0.196 
N5  0.471   0.253           0.140  -0.101 
O1         -0.108                   0.595 
O2 -0.145   0.421   0.125   0.199         
O3         -0.204                   0.605 
O4          0.244                   0.548 
O5  0.139                   0.177  -0.441 

               Factor1 Factor2 Factor3 Factor4 Factor5
SS loadings      2.610   2.138   2.075   1.899   1.570
Proportion Var   0.104   0.086   0.083   0.076   0.063
Cumulative Var   0.104   0.190   0.273   0.349   0.412

Test of the hypothesis that 5 factors are sufficient.
The chi square statistic is 767.57 on 185 degrees of freedom.
The p-value is 5.93e-72 

1
สวัสดี Jeromy ถาม: การใช้ระยะห่างของ abs (คร (... )) หมายความว่าอย่างไร? ไม่ใช่เมทริกคอร์คือจำนวนที่มากขึ้นบ่งบอกถึงความสัมพันธ์มากกว่าในขณะที่เมทริกซ์ระยะทางตรงกันข้ามจะเป็นจริงหรือไม่? (ฉันสงสัยว่าฉันขาดอะไรไปคุณช่วยอธิบาย
หน่อยได้

@Tal ความเข้าใจของฉันคือฟังก์ชัน dist ใช้ระยะห่างแบบยุคลิดของเมทริกซ์ที่ส่งไปซึ่งในกรณีนี้คือเมทริกซ์สหสัมพันธ์แบบสัมบูรณ์ บางทีการแปลงตัวอักษรที่มากกว่าจากเมทริกซ์สหสัมพันธ์อาจเป็นฟังก์ชัน as.dist () ซึ่งใช้เมทริกซ์ระยะทางที่มีอยู่: เช่น as.dist (1-abs (cor (na.omit (x)))) เห็นไหม dist
Jeromy Anglim

1
ใช้-ABS 1 (คร ... ) จะทำให้ความรู้สึกมากขึ้นเพื่อฉัน :)
Tal Galili

@Tal ใช่ ฉันเห็นด้วย. ฉันดูอย่างรวดเร็ว ในกรณีนี้เวกเตอร์ของระยะทาง (euclidean ของ abs cor กับ 1-abs cor) มีความสัมพันธ์รอบ ๆ . 96 ดังนั้นมันจึงไม่ได้สร้างความแตกต่างมากนัก
Jeromy Anglim

1
@Tal ตัวเลือก dist: แต่ละตัวแปรมีเวกเตอร์ของความสัมพันธ์แบบสัมบูรณ์ ตัวแปรที่มีเวกเตอร์ที่คล้ายกันมากกว่านี้จะมีระยะทางแบบยุคลิดเล็กกว่า: en.wikipedia.org/wiki/Euclidean_distance
Jeromy Anglim

2

เมื่อ Clustering Correlations เป็นสิ่งสำคัญที่จะไม่คำนวณระยะทางสองครั้ง เมื่อคุณใช้เมทริกซ์สหสัมพันธ์คุณจะต้องทำการคำนวณระยะทาง คุณจะต้องการแปลงเป็นระยะทางจริงโดยการ 1 - ค่าสัมบูรณ์

1-abs(cor(x))

เมื่อคุณไปแปลงเมทริกซ์นี้เป็นวัตถุระยะทางถ้าคุณใช้ฟังก์ชัน dist คุณจะได้ระยะทางระหว่างสหสัมพันธ์ของคุณ แต่คุณต้องการใช้as.dist()ฟังก์ชั่นที่จะเปลี่ยนระยะทางที่คำนวณไว้ล่วงหน้าของคุณให้เป็น"dist"วัตถุ

ใช้วิธีนี้กับตัวอย่าง Alglim

library(psych)
data(bfi)
x <- bfi 
plot(hclust(as.dist(1-abs(cor(na.omit(x))))))

ผลลัพธ์ใน dendroggram ที่แตกต่างกัน คลัสเตอร์ Dendrogram

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.