มีเวกเตอร์บูลีนสองตัวซึ่งมี 0 และ 1 เท่านั้น หากฉันคำนวณความสัมพันธ์ของ Pearson หรือ Spearman พวกเขามีความหมายหรือสมเหตุสมผลหรือไม่
มีเวกเตอร์บูลีนสองตัวซึ่งมี 0 และ 1 เท่านั้น หากฉันคำนวณความสัมพันธ์ของ Pearson หรือ Spearman พวกเขามีความหมายหรือสมเหตุสมผลหรือไม่
คำตอบ:
เพียร์สันและสเปียร์แมนมีการกำหนดความสัมพันธ์ตราบใดที่คุณมีบางและบางสำหรับทั้งสองตัวแปรไบนารีพูดและxมันเป็นเรื่องง่ายที่จะได้รับความคิดเชิงคุณภาพที่ดีว่าพวกเขาหมายถึงอะไรโดยการคิดพล็อตกระจายของตัวแปรทั้งสอง เห็นได้ชัดว่ามีความเป็นไปได้สี่อย่างเท่านั้น(เพื่อให้การเขย่าเพื่อเขย่าจุดที่เหมือนกันสำหรับการสร้างภาพเป็นความคิดที่ดี) ยกตัวอย่างเช่นในสถานการณ์ใด ๆ ที่ทั้งสองเวกเตอร์เหมือนกันเรื่องที่จะมี 0s และ 1s บางอย่างในแต่ละแล้วโดยนิยามและความสัมพันธ์จำเป็นต้อง1ในทำนองเดียวกันก็เป็นไปได้ว่าแล้วความสัมพันธ์เป็น 1
มีเมทริกความคล้ายคลึงกันเฉพาะสำหรับเวกเตอร์ไบนารีเช่น:
เป็นต้น
ฉันจะไม่แนะนำให้ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับข้อมูลไบนารีดูตัวอย่างเคาน์เตอร์ต่อไปนี้:
set.seed(10)
a = rbinom(n=100, size=1, prob=0.9)
b = rbinom(n=100, size=1, prob=0.9)
ในกรณีส่วนใหญ่ทั้งสองให้ 1
table(a,b)
> table(a,b)
b
a 0 1
0 0 3
1 9 88
แต่ความสัมพันธ์ไม่ได้แสดงสิ่งนี้
cor(a, b, method="pearson")
> cor(a, b, method="pearson")
[1] -0.05530639
การวัดความคล้ายคลึงกันแบบไบนารีเช่นดัชนี Jaccardแสดงให้เห็นว่ามีความสัมพันธ์ที่สูงกว่ามาก:
install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")
> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966
ทำไมนี้ ดูที่นี่การถดถอยแบบไบวาเรียแบบง่าย
plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))
พล็อตด้านล่าง (เพิ่มสัญญาณรบกวนเล็กน้อยเพื่อให้จำนวนจุดชัดเจนขึ้น)