สิ่งใดที่อาจทำให้เกิดความแตกต่างใหญ่ในสัมประสิทธิ์สหสัมพันธ์ระหว่าง Pearson's และ Spearman's correlation สำหรับชุดข้อมูลที่กำหนด

สัมประสิทธิ์เพียร์สันระหว่างตัวแปรสองตัวนั้นค่อนข้างสูง (r = .65) แต่เมื่อฉันจัดอันดับค่าตัวแปรและเรียกใช้ความสัมพันธ์ของ Spearman ค่า cofficient ต่ำกว่ามาก (r = .30)

การตีความของสิ่งนี้คืออะไร?

correlation spearman-rho

— user3671
แหล่งที่มา

โดยทั่วไปแล้วเป็นความคิดที่ดีที่จะแสดงข้อมูลกระจายของข้อมูลก่อนที่จะตีความค่าสัมประสิทธิ์สหสัมพันธ์

— chl

ขนาดตัวอย่างของคุณคืออะไร

— Jeromy Anglim

ทำไมความแตกต่างใหญ่

หากข้อมูลของคุณมีการกระจายหรือกระจายอย่างสม่ำเสมอฉันจะคิดว่าความสัมพันธ์ของ Spearman และ Pearson ควรมีความคล้ายคลึงกัน
หากพวกเขาให้ผลลัพธ์ที่แตกต่างกันอย่างมากในกรณีของคุณ (.65 เทียบกับ. 30) การเดาของฉันคือคุณมีข้อมูลหรือค่าผิดเพี้ยนไปและค่าผิดปกตินั้นนำไปสู่ นั่นคือค่าที่สูงมากใน X อาจเกิดขึ้นพร้อมกับค่าที่สูงมากใน Y
@chl เป็นจุดบน ขั้นตอนแรกของคุณควรดูที่พล็อตกระจาย
โดยทั่วไปแล้วความแตกต่างที่มากระหว่างเพียร์สันกับสเปียร์แมนเป็นธงสีแดงที่บอกว่า
- ความสัมพันธ์ของเพียร์สันอาจไม่ใช่บทสรุปที่มีประโยชน์เกี่ยวกับความสัมพันธ์ระหว่างตัวแปรสองตัวของคุณหรือ
- คุณควรแปลงหนึ่งหรือทั้งสองตัวแปรก่อนที่จะใช้ความสัมพันธ์ของเพียร์สันหรือ
- คุณควรลบหรือปรับค่าผิดปกติก่อนใช้ความสัมพันธ์ของ Pearson

คำถามที่เกี่ยวข้อง

ดูคำถามก่อนหน้านี้เกี่ยวกับความแตกต่างระหว่าง Spearman และ Pearson's correlation ด้วย:

ตัวอย่างง่ายๆ R

ต่อไปนี้เป็นการจำลองสถานการณ์ที่อาจเกิดขึ้นได้ง่าย โปรดทราบว่ากรณีด้านล่างเกี่ยวข้องกับค่าที่ผิดพลาดครั้งเดียว แต่คุณสามารถสร้างเอฟเฟกต์ที่คล้ายกันที่มีค่าผิดปกติหลายครั้งหรือข้อมูลที่บิดเบือน

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

ซึ่งให้ผลลัพธ์นี้

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

การวิเคราะห์ความสัมพันธ์แสดงให้เห็นว่าหากไม่มี Spearman และ Pearson ที่ค่อนข้างจะคล้ายกันและมีค่าที่ค่อนข้างมากความสัมพันธ์นั้นค่อนข้างแตกต่างกัน

พล็อตด้านล่างแสดงให้เห็นว่าการปฏิบัติต่อข้อมูลในระดับใดจะช่วยลดอิทธิพลของค่าผิดปกติได้ดังนั้น Spearman จึงมีความคล้ายคลึงกันทั้งที่มีและไม่มีค่าผิดเพี้ยนในขณะที่เพียร์สันมีความแตกต่างกันมาก สิ่งนี้ชี้ให้เห็นว่าทำไม Spearman มักเรียกว่าแข็งแกร่ง

ป้อนคำอธิบายรูปภาพที่นี่

— Jeromy Anglim
แหล่งที่มา