วิธีการเลือกระหว่าง Pearson และ Spearman correlation


119

จะรู้ได้อย่างไรเมื่อต้องเลือกระหว่างสเปียร์แมนและเพียร์สันR ? ตัวแปรของฉันรวมถึงความพึงพอใจและคะแนนถูกตีความโดยใช้ผลรวมของคะแนน อย่างไรก็ตามคะแนนเหล่านี้ก็สามารถจัดอันดับρr


2
ดูคำถามนี้เกี่ยวกับเพียร์สันกับสเปียร์แมนสำหรับ
Jeromy Anglim

1
ในกรณีของข้อมูลปกติให้ผลิตเพียร์สัน ในกรณีที่ข้อมูลไม่ปกติให้สร้างสเปียร์แมน

คำตอบ:


137

หากคุณต้องการสำรวจข้อมูลของคุณการคำนวณทั้งสองวิธีดีที่สุดเนื่องจากความสัมพันธ์ระหว่าง Spearman (S) และ Pearson (P) correlations จะให้ข้อมูลบางอย่าง โดยสังเขป S คำนวณจากอันดับและแสดงความสัมพันธ์แบบโมโนโพนิกในขณะที่ P อยู่ในค่าจริงและแสดงความสัมพันธ์เชิงเส้น

ตัวอย่างเช่นถ้าคุณตั้งค่า:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

yx

corr(x,log(y),'type','Pearson');  % will equal 1

y

ฉันหวังว่าสิ่งนี้จะช่วยสร้างความแตกต่างระหว่างประเภทของความสัมพันธ์ที่เข้าใจได้ง่ายขึ้น


2
ฉันเดาว่านี่เป็นสิ่งที่ได้รับจากสิ่งที่คุณพูดไปแล้ว แต่ฉันแค่ต้องการยืนยันว่ามันเป็นไปไม่ได้ที่ S <P จะเกิดขึ้น
Jonathan Thiele

9
@ JonathanThiele เป็นไปได้อย่างสมบูรณ์แบบที่จะมี S <P ตัวอย่างเช่นชุด II และ IV จาก Quartets ของ Anscombe แสดงให้เห็นถึงพฤติกรรมนี้ ดูคำถามนี้ได้ที่: stats.stackexchange.com/questions/27127/…
atomicules

1
@atomicules ขอบคุณสำหรับข้อมูล ฉันเพิ่งตรวจสอบความสัมพันธ์ใน Quartet ของ Anscombe และลิงค์ของคุณก็มีประโยชน์
Jonathan Thiele

คุณจะรวมความสัมพันธ์ของ Pearson และ Spearson ไว้ในงานนำเสนอแบบทางเดียวได้อย่างไร - - ฉันคิดว่าที่นี่คือกรณีstackoverflow.com/a/40523080/54964 - - ฉันมีปัญหาหลายประการดังนั้นฉันจึงคิดว่า Spearson จะถูกต้องที่จะรวมและฉันไม่สามารถไปกับเพียร์สันเท่านั้น
LéoLéopold Hertz 준영

นี่เป็นวิธีที่ฉันมักจะใช้เพราะมันมีประโยชน์เพิ่มเติมจากการหลีกเลี่ยงการพิสูจน์เหตุผลของการทดสอบครั้งหนึ่งกับการทดสอบอื่นโดยเฉพาะอย่างยิ่งเมื่อทดสอบความสัมพันธ์ระหว่างตัวแปรหลายตัว แทนที่จะตรวจสอบตัวแปรแต่ละตัวเพื่อดูว่าข้อสันนิษฐานของ Pearson หรือ Spearman นั้นสัมพันธ์กันหรือไม่เพียงแค่รันทั้งสองอย่างในทุกสิ่ง ในแอปพลิเคชั่นที่ใช้งานได้หลายอย่างพวกเขาจะให้ความสำคัญของการเชื่อมโยงที่คล้ายกันดังนั้นคุณจะต้องเจาะลึกลงไปในตัวอย่างที่ค่อนข้างน้อยซึ่งผลลัพธ์ของพวกเขาแตกต่างกันอย่างมากและเป็นกรณีที่น่าสนใจ
นิวเคลียร์วัง

50

คำตอบที่สั้นและถูกต้องที่สุดคือ:

เพียร์สันเกณฑ์มาตรฐานความสัมพันธ์เชิงเส้น Spearman มาตรฐานความสัมพันธ์แบบโมโน (ไม่กี่กรณีทั่วไปมากขึ้น แต่สำหรับการแลกเปลี่ยนพลังงานบางอย่าง)

y=1x+0


35

สิ่งนี้เกิดขึ้นบ่อยครั้งในสถิติ: มีวิธีการมากมายที่สามารถนำไปใช้ในสถานการณ์ของคุณและคุณไม่รู้ว่าจะเลือกวิธีใด คุณควรยึดถือการตัดสินใจข้อดีและข้อเสียของวิธีการพิจารณาและข้อมูลเฉพาะของปัญหาของคุณ แต่ถึงอย่างนั้นการตัดสินใจมักจะเป็นอัตนัยโดยไม่มีคำตอบ "ถูกต้อง" ที่ตกลงกันไว้ โดยปกติแล้วคุณควรลองใช้วิธีการต่าง ๆ ตามที่เห็นสมควรและความอดทนของคุณจะอนุญาตและดูว่าวิธีใดที่จะให้ผลลัพธ์ที่ดีที่สุดแก่คุณในที่สุด

ความแตกต่างระหว่างความสัมพันธ์เพียร์สันและสหสัมพันธ์สเปียร์แมนเป็นที่เพียร์สันที่เหมาะสมที่สุดสำหรับการตรวจวัดนำมาจากช่วงเวลาขนาดในขณะที่สเปียร์แมนมีความเหมาะสมสำหรับการตรวจวัดที่นำมาจากลำดับเครื่องชั่งน้ำหนัก ตัวอย่างของเครื่องชั่งช่วงเวลา ได้แก่ "อุณหภูมิใน Farenheit" และ "ความยาวเป็นนิ้ว" ซึ่งแต่ละหน่วย (1 องศา F, 1 นิ้ว) มีความหมาย สิ่งต่าง ๆ เช่น "คะแนนความพึงพอใจ" มีแนวโน้มที่จะเป็นลำดับตั้งแต่ในขณะที่เห็นได้ชัดว่า "5 ความสุข" มีความสุขมากกว่า "3 ความสุข" ไม่ชัดเจนว่าคุณจะตีความหมายของความสุข 1 หน่วยได้หรือไม่ แต่เมื่อคุณเพิ่มขึ้น การวัดหลายแบบเป็นอันดับซึ่งเป็นสิ่งที่คุณมีในกรณีของคุณคุณจบลงด้วยการวัดที่ไม่จริงหรือลำดับและช่วงเวลาและยากที่จะตีความ

ฉันขอแนะนำให้คุณแปลงคะแนนความพึงพอใจของคุณเป็นคะแนนควอไทล์แล้วทำงานกับผลรวมของคะแนนเหล่านั้นเพราะจะให้ข้อมูลที่คล้อยตามการตีความได้เล็กน้อย แต่ในกรณีนี้ก็ยังไม่ชัดเจนว่า Pearson หรือ Spearman จะเหมาะสมกว่านี้หรือไม่


2
ยกตัวอย่างเช่น ... ความเข้าใจเรื่องการสื่อสาร? ความเข้าใจที่สูงไม่มีความแตกต่างอย่างชัดเจนกับความเข้าใจที่สูงมากใช่ไหม? แต่ฉันเห็นแล้วว่าตัวแปรมีความสัมพันธ์กับตัวแปรอื่น ๆ โดยใช้เพียร์สัน ไม่เป็นไรใช่ไหม ขอขอบคุณ!

28

วันนี้ฉันวิ่งเข้าไปในมุมที่น่าสนใจ

หากเราดูตัวอย่างจำนวนน้อยมากความแตกต่างระหว่าง Spearman กับ Pearson นั้นน่าทึ่งมาก

ในกรณีด้านล่างทั้งสองวิธีจะรายงานความสัมพันธ์ที่ตรงกันข้าม

ป้อนคำอธิบายรูปภาพที่นี่

กฎง่ายๆสำหรับการตัดสินใจเกี่ยวกับ Spearman กับ Pearson:

  • สมมติฐานของ Pearsons คือความแปรปรวนคงที่และความเป็นเชิงเส้น (หรือบางสิ่งบางอย่างใกล้เคียงกับเหตุผลนั้น) และหากไม่พบสิ่งเหล่านี้มันอาจคุ้มค่าที่จะลองใช้ Spearmans
  • ตัวอย่างด้านบนเป็นกรณีมุมที่ปรากฏขึ้นเฉพาะในกรณีที่มีดาต้าพอยน์จำนวนน้อย (<5) ตัว หากมีจุดข้อมูล> มากกว่า 100 จุดและข้อมูลอยู่ในแนวตรงหรือใกล้เคียง Pearson จะคล้ายกับ Spearman มาก
  • หากคุณรู้สึกว่าการถดถอยเชิงเส้นเป็นวิธีที่เหมาะสมในการวิเคราะห์ข้อมูลของคุณผลลัพธ์ของ Pearsons จะตรงกับเครื่องหมายและขนาดของความชันของการถดถอยเชิงเส้น (หากตัวแปรเป็นมาตรฐาน)
  • หากข้อมูลของคุณมีองค์ประกอบที่ไม่ใช่เชิงเส้นบางส่วนซึ่งการถดถอยเชิงเส้นจะไม่เกิดขึ้นก่อนอื่นให้ลองปรับข้อมูลให้เป็นรูปแบบเชิงเส้นโดยใช้การแปลง (อาจเป็น e) หากวิธีนี้ใช้ไม่ได้ผลสเปียร์แมนอาจเหมาะสม
  • ฉันลองเพียร์สันก่อนเสมอและถ้าไม่ได้ผลฉันจะลองสเปียร์แมน
  • คุณสามารถเพิ่มกฎง่ายๆหรือแก้ไขกฎที่ฉันเพิ่งอนุมานได้หรือไม่ ฉันตั้งคำถามนี้เป็น Wiki ชุมชนเพื่อให้คุณสามารถทำได้

ps นี่คือรหัส R เพื่อสร้างกราฟข้างบน:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

ในขณะที่เห็นด้วยกับคำตอบของ charles ฉันขอแนะนำ (ในระดับปฏิบัติอย่างเคร่งครัด) ว่าคุณคำนวณทั้งสัมประสิทธิ์และดูความแตกต่าง ในหลายกรณีพวกเขาจะเหมือนกันดังนั้นคุณไม่จำเป็นต้องกังวล

อย่างไรก็ตามหากมีความแตกต่างกันคุณจะต้องดูว่าคุณได้พบกับสมมติฐานของ Pearsons หรือไม่ (ความแปรปรวนคงที่และความเป็นเชิงเส้น) และหากไม่ตรงกับสิ่งเหล่านี้


3
ในฐานะที่เป็นผู้เรียนรู้เครื่องจักรฉันไม่ได้เป็นนักบุญที่มีความถูกต้องทางสถิติ แต่การตรวจสอบสมมติฐานหลังจากทำการทดสอบดูเหมือนว่าเป็นบาปสำหรับฉัน
steffen

7
@steffen ฉันคิดว่ามันดี ข้อสันนิษฐานข้อหนึ่งของการถดถอยคือการแจกแจงส่วนที่เหลือตามปกติ คุณจะตรวจสอบก่อนที่จะทำการถดถอยอย่างไร
เกลน

1
@Glen: ในกรณีนี้ฉันไม่สามารถ แต่เมื่อฉันเปรียบเทียบคุณภาพของแบบจำลองที่แตกต่างกันโดยทั่วไปฉันชอบที่จะตรวจสอบสมมติฐาน (เช่นกระจายโดยทั่วไป) ก่อนที่จะทำการทดสอบเพื่อลดแนวโน้มที่จะผ่อนคลายสมมติฐานในความโปรดปรานของผลการทดสอบบางอย่าง เรียกได้ว่าเป็นการป้องกันจิตใจหลอกลวง ฉันคิดว่ามันเป็นแค่ฉัน;)
steffen

1
@ steffen: คุณถูกต้องเกี่ยวกับบาป แต่ถ้าทั้งสองขั้นตอนให้ผลลัพธ์เดียวกันมันเป็นเรื่องของรสนิยมที่จะใช้ แต่ถ้าพวกเขาไม่ได้ตรวจสอบ asumptions และที่ที่พวกเขาล้มเหลวมักจะให้ข้อมูลเชิงลึกที่เป็นประโยชน์ในเชิงลึก โดยส่วนตัวแล้วฉันใช้สเปียร์แมนทุกที่ที่เป็นไปได้
richiemorrisroe
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.