เหตุใดความสัมพันธ์ของเพียร์สันถึงอันดับที่ถูกต้องแม้จะมีการสันนิษฐานทั่วไป


9

ฉันกำลังอ่านข้อสมมติฐานสำหรับสหสัมพันธ์ของเพียร์สัน ข้อสันนิษฐานที่สำคัญสำหรับการทดสอบทีตามมาดูเหมือนว่าตัวแปรทั้งสองมาจากการแจกแจงแบบปกติ หากพวกเขาไม่ทำเช่นนั้นการใช้มาตรการทางเลือกเช่น Rho Spearman จะได้รับการสนับสนุน ความสัมพันธ์ของสเปียร์แมนคำนวณได้จากความสัมพันธ์ของเพียร์สันโดยใช้อันดับ X และ Y แทน X และ Y เท่านั้นใช่ไหม?

คำถามของฉันคือ: หากตัวแปรอินพุตเข้าสู่ความสัมพันธ์แบบเพียร์สันจำเป็นต้องกระจายตามปกติทำไมการคำนวณความสัมพันธ์สเปียร์แมนจึงใช้ได้แม้ว่าตัวแปรอินพุตจะถูกจัดอันดับ อันดับของฉันไม่ได้มาจากการแจกแจงแบบปกติ ...

คำอธิบายเดียวที่ฉันเกิดขึ้นจนถึงตอนนี้ก็คือความสำคัญของ Rho นั้นอาจถูกทดสอบแตกต่างจากของ Pearson t-test correlation (ในวิธีที่ไม่ต้องใช้กฎเกณฑ์) แต่จนถึงตอนนี้ฉันไม่พบสูตร อย่างไรก็ตามเมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และสำหรับ t-test ของ Pearson correlation ของอันดับตรงกันเสมอประหยัดสำหรับตัวเลขสองสามตัวสุดท้าย สำหรับฉันนี่ดูเหมือนจะไม่เหมือนขั้นตอนที่แตกต่าง

คำอธิบายและความคิดใด ๆ ที่คุณอาจได้รับการชื่นชม!

คำตอบ:


7

ปกติไม่จำเป็นต้องคำนวณสหสัมพันธ์เพียร์สัน; เป็นเพียงการอนุมานบางรูปแบบเกี่ยวกับปริมาณประชากรที่สอดคล้องกันนั้นขึ้นอยู่กับสมมติฐานปกติ (CIs และการทดสอบสมมติฐาน)

หากคุณไม่มีกฎเกณฑ์คุณสมบัติโดยนัยของการอนุมานในรูปแบบนั้นจะไม่เกิดขึ้น

ในกรณีของความสัมพันธ์ของสเปียร์แมนคุณไม่มีมาตรฐาน แต่ก็ดีเพราะการคำนวณแบบอนุมานสำหรับสหสัมพันธ์สเปียร์แมน (เช่นการทดสอบสมมติฐาน) ไม่ได้ขึ้นอยู่กับสมมติฐานปกติ

พวกมันได้มาจากการจัดกลุ่มคู่จากการกระจายตัวแบบ bivariate อย่างต่อเนื่อง ในกรณีนี้การทดสอบสมมติฐานใช้การกระจายการเปลี่ยนแปลงของสถิติการทดสอบตามอันดับ

เมื่อสมมติฐานตามปกติสำหรับการอนุมานกับ Pearson correlation hold (ค่าปกติแบบ bivariate) ค่าความสัมพันธ์ Spearman นั้นมักจะใกล้เคียงกันมาก

(ดังนั้นเมื่อคุณสามารถใช้เพียร์สันได้สเปียร์แมนมักจะทำได้ค่อนข้างดีถ้าคุณมีข้อมูลปกติที่เกือบจะแยกจากการปนเปื้อนด้วยกระบวนการอื่น ๆ การกระจายที่ไม่ปนเปื้อน)


ขอบคุณอ้างอิงถึงการกระจายการเปลี่ยนแปลงจะมีประโยชน์!
GST95

"Spearman จะเป็นวิธีที่แข็งแกร่งกว่าในการประมาณค่าสหสัมพันธ์" สำหรับ Nitpick Spearman จะประมาณความสัมพันธ์ไม่ใช่ความสัมพันธ์เชิงเส้น
landroni

1
@landroni ถ้าฉันพูดถึง Spearman โดยทั่วไปคุณจะอธิบายลักษณะที่ถูกต้องของ Spearman ได้ - แต่ในประโยคนั้นฉันพูดอย่างชัดเจนเกี่ยวกับการเปรียบเทียบค่าประมาณสองค่าของความสัมพันธ์ของประชากรภายใต้การปนเปื้อนและฉันหมายถึงสิ่งที่ฉันพูด ลองนึกภาพ bivariate ปกติที่สัมพันธ์กันρแล้วเพิ่มค่าผิดปกติที่รุนแรงมาก ถ้าฉันต้องการประเมินρ ในสถานการณ์นั้นสเปียร์แมนเป็นผู้ประเมินที่แข็งแกร่งกว่า ρกว่าความสัมพันธ์ของเพียร์สัน
Glen_b -Reinstate Monica

1
@landroni ... สถานการณ์เช่นนี้สามารถเกิดขึ้นได้ที่คุณมีกระบวนการหลักที่มีพฤติกรรมดีและมีกระบวนการปนเปื้อนที่รุนแรงมาก แต่อาจเกิดขึ้นเป็นครั้งคราวเท่านั้น หากคุณสนใจที่จะประเมินความสัมพันธ์ของกระบวนการที่ไม่มีการปนเปื้อนความสัมพันธ์ของเพียร์สันนั้นมีความอ่อนไหวต่อการปนเปื้อนมากยิ่งขึ้นกว่าสเปียร์แมน
Glen_b -Reinstate Monica

2

เมื่อฉันวิ่งไปสองสามตัวอย่างค่า p สำหรับ rho และ t-test ของเพียร์สันสหสัมพันธ์ของอันดับตรงกันเสมอบันทึกสำหรับตัวเลขสองสามตัวสุดท้าย

ถ้างั้นคุณก็ลองผิดตัวอย่าง!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

เวกเตอร์aและbมีดี แต่ห่างไกลจากความสัมพันธ์เชิงเส้น (เพียร์สัน) ที่สมบูรณ์ อย่างไรก็ตามพวกเขามีความสัมพันธ์ที่สมบูรณ์แบบอันดับ ดู - เพื่อ Spearmanρในกรณีนี้มันไม่สำคัญหรอกถ้าหลักสุดท้ายของbคือ 8.1, 9, 90 หรือ 9000 (ลอง!) มันเป็นเรื่องสำคัญเท่านั้นถ้ามันมีขนาดใหญ่กว่า 8 นั่นคือสิ่งที่ทำให้เกิดความสัมพันธ์ที่แตกต่างกัน

ในทางกลับกันในขณะที่aและbมีความสัมพันธ์ในระดับที่สมบูรณ์แบบสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีค่าน้อยกว่า 1 ซึ่งแสดงให้เห็นว่าสหสัมพันธ์ของเพียร์สันไม่ได้สะท้อนอันดับ
เพียร์สันสหสัมพันธ์สะท้อนให้เห็นถึงฟังก์ชันเชิงเส้นความสัมพันธ์อันดับเพียงฟังก์ชั่นแบบโมโน ในกรณีของข้อมูลปกติทั้งสองจะคล้ายกันมากและฉันสงสัยว่านี่คือสาเหตุที่ข้อมูลของคุณไม่แสดงความแตกต่างใหญ่ระหว่าง Spearman และ Pearson

สำหรับตัวอย่างในทางปฏิบัติให้พิจารณาสิ่งต่อไปนี้ คุณต้องการดูว่าคนที่สูงกว่ามีน้ำหนักมากกว่านี้หรือไม่ ใช่มันเป็นคำถามที่งี่เง่า ... แต่แค่คิดว่านี่คือสิ่งที่คุณสนใจ ตอนนี้มวลไม่ได้วัดตามน้ำหนักเป็นเส้นตรงเนื่องจากคนสูงก็กว้างกว่าคนเล็ก น้ำหนักไม่ใช่ฟังก์ชันเชิงเส้นของความสูง คนที่สูงกว่าคุณ 10% (โดยเฉลี่ย) หนักกว่า 10% นี่คือเหตุผลที่ดัชนีร่างกาย / มวลใช้คิวบ์ในส่วน
ดังนั้นคุณจะถือว่ามีความสัมพันธ์เชิงเส้นเพื่อสะท้อนความสัมพันธ์ส่วนสูง / น้ำหนักที่ไม่ถูกต้อง ในทางตรงกันข้ามความสัมพันธ์ของอันดับนั้นไม่สำคัญต่อกฎทางฟิสิกส์และชีววิทยาที่น่ารำคาญในกรณีนี้ มันไม่ได้สะท้อนหากคนเติบโตขึ้นอย่างเป็นเส้นตรงเมื่อพวกเขาได้รับความสูงมันก็สะท้อนให้เห็นว่าคนที่สูงกว่า (สูงกว่าในระดับหนึ่ง) จะหนักกว่า (อยู่ในระดับที่สูงกว่าในอีกระดับหนึ่ง)

ตัวอย่างทั่วไปที่มากขึ้นอาจเป็นของการจัดอันดับแบบสอบถามแบบ Likert เช่นผู้คนให้คะแนนบางอย่างว่า "สมบูรณ์แบบ / ดี / เหมาะสม / ปานกลาง / แย่ / แย่ / แย่มาก" "สมบูรณ์แบบ" นั้นไกลจาก "ดี" เท่าที่ "ดี" มาจาก "ไม่ดี" ในสเกลแต่เราสามารถพูดได้หรือไม่ว่าระยะห่างระหว่างทั้งสองเหมือนกันหรือไม่ ความสัมพันธ์เชิงเส้นไม่จำเป็นต้องเหมาะสม อันดับความสัมพันธ์เป็นธรรมชาติมากขึ้น

ไปยังที่อยู่โดยตรงคำถามของคุณ: ไม่มีPค่าสำหรับเพียร์สันและสเปียร์แมนสัมพันธ์จะต้องไม่ได้รับการคำนวณที่แตกต่างกัน มีความแตกต่างกันมากเกี่ยวกับทั้งสองแนวคิดและตัวเลข แต่ถ้าสถิติการทดสอบเท่ากันค่าpจะเท่ากัน

กับคำถามของสมมติฐานของเพียร์สันปกติในความสัมพันธ์ให้ดูนี้
โดยทั่วไปแล้วคนอื่น ๆ มีเนื้อหาที่ดีกว่าที่ฉันสามารถทำได้เกี่ยวกับหัวข้อของความสัมพันธ์แบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ (ดูที่นี่ ) และสิ่งนี้หมายความว่าอย่างไรเกี่ยวกับสมมติฐานการกระจาย


ขอบคุณ! ครั้งต่อไปฉันจะต้องแน่ใจว่าได้ทดลองกับตัวอย่างเพิ่มเติม :)
GST95

1
ไม่รอจริงๆนั่นไม่ใช่คำถามของฉัน ฉันไม่ได้เปรียบเทียบ method = "pearson" กับ method = "spearman" รุ่น x และ y ฉันเมื่อเทียบกับcor.test(x, y, method = "spearman") cor.test(rank(x), rank(y), method = "pearson")การประมาณการเหล่านี้จะเหมือนกันไม่ว่าจะเลือกข้อมูลใด อย่างไรก็ตามขอขอบคุณ! :)
GST95

@ GST95 ความสัมพันธ์ของ Spearman คือความสัมพันธ์ของ Pearson ที่ดำเนินการกับข้อมูลที่ได้รับการจัดอันดับ "วิธีการ" สองวิธีของคุณเป็นวิธีเดียวกันอย่างแท้จริง
Dennis

@Dennis แน่นอนฉันไม่ได้เปรียบเทียบสัมประสิทธิ์ rho (เหมือน) แต่ p-values ​​เพื่อดูว่าพวกเขาทั้งคู่ได้รับจากการทดสอบ t หรือไม่
GST95
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.