จะรู้ได้อย่างไรเมื่อต้องเลือกระหว่างสเปียร์แมนและเพียร์สันR ? ตัวแปรของฉันรวมถึงความพึงพอใจและคะแนนถูกตีความโดยใช้ผลรวมของคะแนน อย่างไรก็ตามคะแนนเหล่านี้ก็สามารถจัดอันดับ
จะรู้ได้อย่างไรเมื่อต้องเลือกระหว่างสเปียร์แมนและเพียร์สันR ? ตัวแปรของฉันรวมถึงความพึงพอใจและคะแนนถูกตีความโดยใช้ผลรวมของคะแนน อย่างไรก็ตามคะแนนเหล่านี้ก็สามารถจัดอันดับ
คำตอบ:
หากคุณต้องการสำรวจข้อมูลของคุณการคำนวณทั้งสองวิธีดีที่สุดเนื่องจากความสัมพันธ์ระหว่าง Spearman (S) และ Pearson (P) correlations จะให้ข้อมูลบางอย่าง โดยสังเขป S คำนวณจากอันดับและแสดงความสัมพันธ์แบบโมโนโพนิกในขณะที่ P อยู่ในค่าจริงและแสดงความสัมพันธ์เชิงเส้น
ตัวอย่างเช่นถ้าคุณตั้งค่า:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
corr(x,log(y),'type','Pearson'); % will equal 1
ฉันหวังว่าสิ่งนี้จะช่วยสร้างความแตกต่างระหว่างประเภทของความสัมพันธ์ที่เข้าใจได้ง่ายขึ้น
คำตอบที่สั้นและถูกต้องที่สุดคือ:
เพียร์สันเกณฑ์มาตรฐานความสัมพันธ์เชิงเส้น Spearman มาตรฐานความสัมพันธ์แบบโมโน (ไม่กี่กรณีทั่วไปมากขึ้น แต่สำหรับการแลกเปลี่ยนพลังงานบางอย่าง)
สิ่งนี้เกิดขึ้นบ่อยครั้งในสถิติ: มีวิธีการมากมายที่สามารถนำไปใช้ในสถานการณ์ของคุณและคุณไม่รู้ว่าจะเลือกวิธีใด คุณควรยึดถือการตัดสินใจข้อดีและข้อเสียของวิธีการพิจารณาและข้อมูลเฉพาะของปัญหาของคุณ แต่ถึงอย่างนั้นการตัดสินใจมักจะเป็นอัตนัยโดยไม่มีคำตอบ "ถูกต้อง" ที่ตกลงกันไว้ โดยปกติแล้วคุณควรลองใช้วิธีการต่าง ๆ ตามที่เห็นสมควรและความอดทนของคุณจะอนุญาตและดูว่าวิธีใดที่จะให้ผลลัพธ์ที่ดีที่สุดแก่คุณในที่สุด
ความแตกต่างระหว่างความสัมพันธ์เพียร์สันและสหสัมพันธ์สเปียร์แมนเป็นที่เพียร์สันที่เหมาะสมที่สุดสำหรับการตรวจวัดนำมาจากช่วงเวลาขนาดในขณะที่สเปียร์แมนมีความเหมาะสมสำหรับการตรวจวัดที่นำมาจากลำดับเครื่องชั่งน้ำหนัก ตัวอย่างของเครื่องชั่งช่วงเวลา ได้แก่ "อุณหภูมิใน Farenheit" และ "ความยาวเป็นนิ้ว" ซึ่งแต่ละหน่วย (1 องศา F, 1 นิ้ว) มีความหมาย สิ่งต่าง ๆ เช่น "คะแนนความพึงพอใจ" มีแนวโน้มที่จะเป็นลำดับตั้งแต่ในขณะที่เห็นได้ชัดว่า "5 ความสุข" มีความสุขมากกว่า "3 ความสุข" ไม่ชัดเจนว่าคุณจะตีความหมายของความสุข 1 หน่วยได้หรือไม่ แต่เมื่อคุณเพิ่มขึ้น การวัดหลายแบบเป็นอันดับซึ่งเป็นสิ่งที่คุณมีในกรณีของคุณคุณจบลงด้วยการวัดที่ไม่จริงหรือลำดับและช่วงเวลาและยากที่จะตีความ
ฉันขอแนะนำให้คุณแปลงคะแนนความพึงพอใจของคุณเป็นคะแนนควอไทล์แล้วทำงานกับผลรวมของคะแนนเหล่านั้นเพราะจะให้ข้อมูลที่คล้อยตามการตีความได้เล็กน้อย แต่ในกรณีนี้ก็ยังไม่ชัดเจนว่า Pearson หรือ Spearman จะเหมาะสมกว่านี้หรือไม่
วันนี้ฉันวิ่งเข้าไปในมุมที่น่าสนใจ
หากเราดูตัวอย่างจำนวนน้อยมากความแตกต่างระหว่าง Spearman กับ Pearson นั้นน่าทึ่งมาก
ในกรณีด้านล่างทั้งสองวิธีจะรายงานความสัมพันธ์ที่ตรงกันข้าม
กฎง่ายๆสำหรับการตัดสินใจเกี่ยวกับ Spearman กับ Pearson:
ps นี่คือรหัส R เพื่อสร้างกราฟข้างบน:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
ในขณะที่เห็นด้วยกับคำตอบของ charles ฉันขอแนะนำ (ในระดับปฏิบัติอย่างเคร่งครัด) ว่าคุณคำนวณทั้งสัมประสิทธิ์และดูความแตกต่าง ในหลายกรณีพวกเขาจะเหมือนกันดังนั้นคุณไม่จำเป็นต้องกังวล
อย่างไรก็ตามหากมีความแตกต่างกันคุณจะต้องดูว่าคุณได้พบกับสมมติฐานของ Pearsons หรือไม่ (ความแปรปรวนคงที่และความเป็นเชิงเส้น) และหากไม่ตรงกับสิ่งเหล่านี้