เมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และ t-test ของเพียร์สันสหสัมพันธ์ของอันดับตรงกันเสมอบันทึกสำหรับตัวเลขสองสามตัวสุดท้าย
ถ้างั้นคุณก็ลองผิดตัวอย่าง!
a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')
Pearson's product-moment correlation
data: a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.08621009 0.90762506
sample estimates:
cor
0.6130088
cor.test(a,b,method='spearman')
Spearman's rank correlation rho
data: a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
1
เวกเตอร์a
และb
มีดี แต่ห่างไกลจากความสัมพันธ์เชิงเส้น (เพียร์สัน) ที่สมบูรณ์ อย่างไรก็ตามพวกเขามีความสัมพันธ์ที่สมบูรณ์แบบอันดับ ดู - เพื่อ Spearmanρในกรณีนี้มันไม่สำคัญหรอกถ้าหลักสุดท้ายของb
คือ 8.1, 9, 90 หรือ 9000 (ลอง!) มันเป็นเรื่องสำคัญเท่านั้นถ้ามันมีขนาดใหญ่กว่า 8 นั่นคือสิ่งที่ทำให้เกิดความสัมพันธ์ที่แตกต่างกัน
ในทางกลับกันในขณะที่a
และb
มีความสัมพันธ์ในระดับที่สมบูรณ์แบบสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีค่าน้อยกว่า 1 ซึ่งแสดงให้เห็นว่าสหสัมพันธ์ของเพียร์สันไม่ได้สะท้อนอันดับ
เพียร์สันสหสัมพันธ์สะท้อนให้เห็นถึงฟังก์ชันเชิงเส้นความสัมพันธ์อันดับเพียงฟังก์ชั่นแบบโมโน ในกรณีของข้อมูลปกติทั้งสองจะคล้ายกันมากและฉันสงสัยว่านี่คือสาเหตุที่ข้อมูลของคุณไม่แสดงความแตกต่างใหญ่ระหว่าง Spearman และ Pearson
สำหรับตัวอย่างในทางปฏิบัติให้พิจารณาสิ่งต่อไปนี้ คุณต้องการดูว่าคนที่สูงกว่ามีน้ำหนักมากกว่านี้หรือไม่ ใช่มันเป็นคำถามที่งี่เง่า ... แต่แค่คิดว่านี่คือสิ่งที่คุณสนใจ ตอนนี้มวลไม่ได้วัดตามน้ำหนักเป็นเส้นตรงเนื่องจากคนสูงก็กว้างกว่าคนเล็ก น้ำหนักไม่ใช่ฟังก์ชันเชิงเส้นของความสูง คนที่สูงกว่าคุณ 10% (โดยเฉลี่ย) หนักกว่า 10% นี่คือเหตุผลที่ดัชนีร่างกาย / มวลใช้คิวบ์ในส่วน
ดังนั้นคุณจะถือว่ามีความสัมพันธ์เชิงเส้นเพื่อสะท้อนความสัมพันธ์ส่วนสูง / น้ำหนักที่ไม่ถูกต้อง ในทางตรงกันข้ามความสัมพันธ์ของอันดับนั้นไม่สำคัญต่อกฎทางฟิสิกส์และชีววิทยาที่น่ารำคาญในกรณีนี้ มันไม่ได้สะท้อนหากคนเติบโตขึ้นอย่างเป็นเส้นตรงเมื่อพวกเขาได้รับความสูงมันก็สะท้อนให้เห็นว่าคนที่สูงกว่า (สูงกว่าในระดับหนึ่ง) จะหนักกว่า (อยู่ในระดับที่สูงกว่าในอีกระดับหนึ่ง)
ตัวอย่างทั่วไปที่มากขึ้นอาจเป็นของการจัดอันดับแบบสอบถามแบบ Likert เช่นผู้คนให้คะแนนบางอย่างว่า "สมบูรณ์แบบ / ดี / เหมาะสม / ปานกลาง / แย่ / แย่ / แย่มาก" "สมบูรณ์แบบ" นั้นไกลจาก "ดี" เท่าที่ "ดี" มาจาก "ไม่ดี" ในสเกลแต่เราสามารถพูดได้หรือไม่ว่าระยะห่างระหว่างทั้งสองเหมือนกันหรือไม่ ความสัมพันธ์เชิงเส้นไม่จำเป็นต้องเหมาะสม อันดับความสัมพันธ์เป็นธรรมชาติมากขึ้น
ไปยังที่อยู่โดยตรงคำถามของคุณ: ไม่มีPค่าสำหรับเพียร์สันและสเปียร์แมนสัมพันธ์จะต้องไม่ได้รับการคำนวณที่แตกต่างกัน มีความแตกต่างกันมากเกี่ยวกับทั้งสองแนวคิดและตัวเลข แต่ถ้าสถิติการทดสอบเท่ากันค่าpจะเท่ากัน
กับคำถามของสมมติฐานของเพียร์สันปกติในความสัมพันธ์ให้ดูนี้
โดยทั่วไปแล้วคนอื่น ๆ มีเนื้อหาที่ดีกว่าที่ฉันสามารถทำได้เกี่ยวกับหัวข้อของความสัมพันธ์แบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ (ดูที่นี่ ) และสิ่งนี้หมายความว่าอย่างไรเกี่ยวกับสมมติฐานการกระจาย