เพียร์สันหรือสเปียร์แมนมีความสัมพันธ์กับข้อมูลที่ไม่ปกติ


113

ฉันได้รับคำถามนี้บ่อยครั้งเพียงพอในการให้คำปรึกษาด้านสถิติที่ฉันคิดว่าฉันโพสต์ไว้ที่นี่ ฉันมีคำตอบซึ่งโพสต์ด้านล่าง แต่ฉันกระตือรือร้นที่จะได้ยินสิ่งที่คนอื่นพูด

คำถาม:หากคุณมีตัวแปรสองตัวที่ไม่ได้มีการแจกแจงแบบปกติคุณควรใช้ Rho ของ Spearman สำหรับความสัมพันธ์หรือไม่?


1
ทำไมไม่คำนวณและรายงานทั้งคู่ (Pearson's r และ Spearman's ρ) ความแตกต่างของพวกเขา (หรือขาดมัน) จะให้ข้อมูลเพิ่มเติม

คำถามเปรียบเทียบสมมติฐานกระจายทำเมื่อเราทดสอบอย่างมีนัยสำคัญเบต้าค่าสัมประสิทธิ์การถดถอยที่เรียบง่ายและเมื่อเราทดสอบค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน (ตัวเลข eual เบต้า) stats.stackexchange.com/q/181043/3277
ttnphns

คำตอบ:


77

Pearson's correlation เป็นการวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสุ่มต่อเนื่องสองตัว มันไม่ถือว่าเป็นปกติแม้ว่ามันจะถือว่าความแปรปรวนแน่นอนและความแปรปรวนร่วมแน่นอน เมื่อตัวแปรเป็นตัวแปรตามปกติความสัมพันธ์ของเพียร์สันให้คำอธิบายที่สมบูรณ์ของการเชื่อมโยง

ความสัมพันธ์ของ Spearman ใช้กับการจัดอันดับและให้การวัดความสัมพันธ์แบบโมโนโทนิกระหว่างตัวแปรสุ่มต่อเนื่องสองตัว นอกจากนี้ยังมีประโยชน์กับข้อมูลลำดับและมีความทนทานต่อค่าผิดปกติ (ไม่เหมือนสหสัมพันธ์ของเพียร์สัน)

การกระจายตัวของสัมประสิทธิ์สหสัมพันธ์จะขึ้นอยู่กับการแจกแจงต้นแบบแม้ว่าทั้งคู่จะเป็นแบบปกติเชิงเส้นกำกับเนื่องจากทฤษฎีบทขีด จำกัด กลาง


12
เพียร์สันไม่ถือเป็นบรรทัดฐาน แต่เป็นเพียงตัวชี้วัดความสัมพันธ์ที่ละเอียดถี่ถ้วนถ้าการกระจายข้อต่อเป็นปกติหลายตัวแปร ด้วยความสับสนเมื่อเกิดความแตกต่างนี้คุณอาจต้องการเพิ่มเข้าไปในคำตอบของคุณ ρ
user603

3
มีแหล่งที่สามารถอ้างเพื่อสนับสนุนข้อความข้างต้น (บุคคล r ไม่ถือว่าปกติ)? เรามีข้อโต้แย้งเดียวกันในแผนกของเราในขณะนี้

5
"เมื่อตัวแปรเป็นตัวแปรปกติความสัมพันธ์ของเพียร์สันให้คำอธิบายที่สมบูรณ์ของการเชื่อมโยง" และเมื่อตัวแปรไม่แปรปรวนตามปกติเพียร์สันมีความสัมพันธ์กันอย่างไร
landroni

2
คำตอบนี้ดูเหมือนจะค่อนข้างทางอ้อม "เมื่อตัวแปรแปรผันตามปกติ ... " และเมื่อไหร่? คำอธิบายแบบนี้คือเหตุผลที่ฉันไม่เคยได้รับสถิติ "Rob คุณชอบชุดใหม่ของฉันได้อย่างไร" "สีเข้มเน้นผิวอ่อนของคุณ" "แน่นอน Rob แต่คุณชอบที่มันเน้นผิวของฉันหรือไม่" "ผิวสีอ่อนถือว่าสวยงามในหลายวัฒนธรรม" "ฉันรู้ Rob แต่คุณชอบหรือไม่" "ฉันคิดว่าชุดนี้สวยมาก" “ ฉันก็คิดอย่างนั้นเหมือนกันร็อบ แต่มันสวยสำหรับฉันหรือเปล่า” "คุณดูสวยสำหรับฉันเสมอที่รัก" ถอนหายใจ

1
หากคุณอ่านสองประโยคก่อนหน้านั้นคุณจะพบคำตอบ
Rob Hyndman

49

อย่าลืมเอกภาพของเคนดัลล์ ! Roger Newson แย้งกับความเหนือกว่าของ Kendall's τ aมากกว่าความสัมพันธ์ของ Spearman r Sเป็นตัวชี้วัดระดับความสัมพันธ์ตามลำดับในกระดาษซึ่งข้อความฉบับเต็มตอนนี้ออนไลน์ได้อย่างอิสระ:

Newson อาร์พารามิเตอร์ที่อยู่เบื้องหลัง "อิง" สถิติ: เคนดอลเป็นเอกภาพ, ซอมเมอร์ D และความแตกต่างของค่ามัธยฐาน Stata Journal 2002; 2 (1): 45-64

เขาอ้างอิง (บน p47) เคนดอลและกิบบอนส์ (1990) เป็นเถียงว่า" ... ช่วงความเชื่อมั่นสำหรับสเปียร์แมนอาร์เอสมีความน่าเชื่อถือน้อยและ interpretable น้อยกว่าช่วงความเชื่อมั่นสำหรับเคนดอลτ -parameters แต่ตัวอย่างสเปียร์แมนR Sเป็นมากขึ้นได้อย่างง่ายดาย คำนวณโดยไม่มีคอมพิวเตอร์ "(ซึ่งไม่มีความสำคัญแน่นอนอีกต่อไป) น่าเสียดายที่ฉันไม่สามารถเข้าถึงสำเนาหนังสือของพวกเขาได้อย่างง่ายดาย:

เคนดอล MG และ JD ชะนี 1990 วิธีการจัดลำดับความสัมพันธ์ วันที่ 5 ลอนดอน: กริฟฟิน


2
ฉันยังเป็นแฟนตัวยงของเอกภาพของเคนดัลล์ เพียร์สันนั้นอ่อนไหวต่อจุดที่มีอิทธิพลมากเกินไปสำหรับรสนิยมของฉันและในขณะที่ Spearman ไม่ประสบปัญหานี้ฉันพบว่าเคนดัลล์เข้าใจและตีความและอธิบายได้ง่ายกว่า Spearman แน่นอนว่าระยะทางของคุณอาจแตกต่างกันไป
Stephan Kolassa

ความทรงจำของฉันจากประสบการณ์คือเอกภาพของเคนดอลยังทำงานช้ากว่า (ใน R) มากกว่าของสเปียร์แมน สิ่งนี้อาจมีความสำคัญหากชุดข้อมูลของคุณมีขนาดใหญ่
Wordsforthewise

35

จากมุมมองที่ใช้ฉันกังวลมากขึ้นเกี่ยวกับการเลือกวิธีการที่สรุปความสัมพันธ์ระหว่างตัวแปรสองตัวในแบบที่สอดคล้องกับคำถามการวิจัยของฉัน ฉันคิดว่าการกำหนดวิธีการรับข้อผิดพลาดมาตรฐานที่แม่นยำและค่า p เป็นคำถามที่ควรมาเป็นอันดับที่สอง แม้ว่าคุณจะเลือกที่จะไม่พึ่งพาซีมโทติค แต่ก็มีตัวเลือกในการบูตหรือเปลี่ยนสมมติฐานการกระจาย

ตามกฎทั่วไปฉันชอบความสัมพันธ์ของเพียร์สันเพราะ (ก) โดยทั่วไปมันสอดคล้องมากขึ้นกับความสนใจเชิงทฤษฎีของฉัน; (b) ช่วยให้สามารถเปรียบเทียบสิ่งที่ค้นพบได้โดยตรงมากขึ้นเนื่องจากการศึกษาส่วนใหญ่ในพื้นที่ของฉันรายงานความสัมพันธ์ของเพียร์สัน; และ (c) ในการตั้งค่าต่าง ๆ มีความแตกต่างกันเล็กน้อยระหว่างสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันกับสเปียร์แมน

อย่างไรก็ตามมีสถานการณ์ที่ฉันคิดว่าความสัมพันธ์ของเพียร์สันกับตัวแปรดิบนั้นทำให้เข้าใจผิด

  • Outliers: Outliers สามารถมีอิทธิพลอย่างมากต่อความสัมพันธ์ของ Pearson ค่าผิดปกติจำนวนมากในการตั้งค่าที่นำไปใช้สะท้อนถึงความล้มเหลวในการวัดหรือปัจจัยอื่น ๆ ที่แบบจำลองไม่ได้มีไว้เพื่อพูดคุย ทางเลือกหนึ่งคือการลบค่าผิดปกติดังกล่าว ค่าผิดปกติที่ไม่เปลี่ยนแปลงนั้นไม่มีอยู่ใน Rho ของ Spearman เพราะทุกอย่างถูกแปลงเป็นอันดับ ดังนั้น Spearman จึงแข็งแกร่งกว่า
  • ตัวแปรที่มีความเบ้สูง:เมื่อมีความสัมพันธ์กับตัวแปรที่เบ้โดยเฉพาะอย่างยิ่งตัวแปรที่มีความเบ้สูงการบันทึกหรือการเปลี่ยนแปลงอื่น ๆ มักจะทำให้ความสัมพันธ์พื้นฐานระหว่างตัวแปรทั้งสองนั้นชัดเจนขึ้น (เช่นขนาดสมองโดยน้ำหนักของสัตว์) ในการตั้งค่าดังกล่าวอาจเป็นได้ว่าตัวชี้วัดแบบดิบนั้นไม่ใช่ตัวชี้วัดที่มีความหมายที่สุด Rho ของ Spearman มีผลคล้ายกันกับการเปลี่ยนแปลงโดยการแปลงทั้งสองตัวแปรเป็นอันดับ จากมุมมองนี้ Rho ของ Spearman สามารถมองได้ว่าเป็นวิธีที่รวดเร็วและสกปรก (หรือมากกว่านั้นมันเป็นอัตวิสัยน้อยกว่า) โดยที่คุณไม่ต้องคิดเกี่ยวกับการเปลี่ยนแปลงที่ดีที่สุด

ในทั้งสองกรณีข้างต้นฉันจะแนะนำให้นักวิจัยพิจารณากลยุทธ์การปรับ (เช่นการเปลี่ยนแปลงการกำจัด / การปรับค่าผิดปกติ) ก่อนที่จะใช้สหสัมพันธ์ของเพียร์สันหรือใช้ Rho ของ Spearman


ปัญหาเกี่ยวกับการเปลี่ยนแปลงคือโดยทั่วไปแล้วมันยังแปลงข้อผิดพลาดที่เกี่ยวข้องกับแต่ละจุดและทำให้น้ำหนัก และมันก็ไม่ได้แก้ปัญหาของคนนอก
skan

11

Updated

คำถามขอให้เราเลือกใช้วิธีของเพียร์สันและสเปียร์แมนเมื่อปกติถาม จำกัด เฉพาะข้อกังวลนี้ฉันคิดว่าบทความต่อไปนี้ควรแจ้งการตัดสินใจของทุกคน:

มันเป็นเรื่องดีมากและให้สำรวจของวรรณกรรมมากเป็นทศวรรษที่ผ่านมาทอดในหัวข้อนี้ - เริ่มต้นจากเพียร์สัน "ขาดวิ่นและบิดเบือนพื้นผิว" และความทนทานของการกระจายของRอย่างน้อยส่วนหนึ่งของธรรมชาติที่ขัดแย้งกันของ "ข้อเท็จจริง" ก็คืองานนี้ส่วนใหญ่ทำมาก่อนการถือกำเนิดของพลังการคำนวณ - สิ่งที่ซับซ้อนเพราะประเภทของการไม่ปฏิบัติตามกฎเกณฑ์จะต้องได้รับการพิจารณาและเป็นการยากที่จะตรวจสอบโดยไม่มีการจำลองr

การวิเคราะห์สกี้สรุปว่าการกระจายของคือไม่ได้มีประสิทธิภาพในการปรากฏตัวของการไม่ปกติและแนะนำขั้นตอนทางเลือก บทความทั้งหมดค่อนข้างให้ข้อมูลและการอ่านที่แนะนำ แต่ข้ามไปสู่ข้อสรุปสั้น ๆ ในตอนท้ายของบทความเพื่อสรุปr

หากถูกขอให้เลือกระหว่างหนึ่งใน Spearman และ Pearson เมื่อละเมิดกฎเกณฑ์ทางเลือกที่แจกฟรีนั้นคุ้มค่าที่จะสนับสนุนเช่นวิธีของ Spearman


ก่อนหน้านี้ ..

Spearman's correlation เป็นเครื่องมือวัดความสัมพันธ์ มันไม่ใช่พารามิเตอร์และไม่ได้อยู่บนสมมติฐานของภาวะปกติ

การแจกแจงตัวอย่างสำหรับเพียร์สันมีความสัมพันธ์กัน โดยเฉพาะอย่างยิ่งสิ่งนี้หมายความว่าแม้ว่าคุณจะสามารถคำนวณได้ข้อสรุปที่อิงจากการทดสอบที่สำคัญอาจไม่ได้ผล

ในขณะที่ Rob ชี้ให้เห็นในความคิดเห็นด้วยตัวอย่างจำนวนมากนี่ไม่ใช่ปัญหา แม้ว่าจะมีกลุ่มตัวอย่างขนาดเล็กที่ละเมิดกฎเกณฑ์ควรใช้ความสัมพันธ์ของ Spearman

อัปเดตการครุ่นคิดมากกว่าความคิดเห็นและคำตอบดูเหมือนว่าสำหรับฉันแล้วสิ่งนี้ทำให้เกิดการถกเถียงกันในการทดสอบแบบอิงพารามิเตอร์ วรรณกรรมส่วนใหญ่เช่นในชีวสถิติไม่ได้เกี่ยวข้องกับตัวอย่างจำนวนมาก ฉันมักจะไม่ใช่นักรบที่ต้องพึ่งพาซีมโทติค บางทีมันอาจจะเป็นธรรมในกรณีนี้ แต่นั่นก็ไม่ปรากฏชัดเจนสำหรับฉัน


1
ไม่ความสัมพันธ์ของ Pearson ไม่ถือว่าเป็นเรื่องปกติ เป็นการประมาณความสัมพันธ์ระหว่างตัวแปรสุ่มต่อเนื่องสองตัวใด ๆ และเป็นตัวประมาณที่สอดคล้องกันภายใต้เงื่อนไขที่ค่อนข้างทั่วไป แม้แต่การทดสอบตามสหสัมพันธ์ของเพียร์สันก็ไม่จำเป็นต้องมีมาตรฐานหากตัวอย่างมีขนาดใหญ่พอเนื่องจาก CLT
Rob Hyndman

2
ฉันอยู่ภายใต้การแสดงผลที่ Pearson ถูกกำหนดตราบใดที่การแจกแจงต้นแบบมีความแปรปรวนและความแปรปรวนร่วมที่ จำกัด ดังนั้นจึงไม่จำเป็นต้องมีกฎเกณฑ์ หากการแจกแจงพื้นฐานไม่ปกติแล้วสถิติทดสอบอาจมีการแจกแจงที่แตกต่างกัน แต่นั่นเป็นปัญหารองและไม่เกี่ยวข้องกับคำถามในมือ นั่นไม่ใช่เหรอ?

2
@Rob: ใช่เราสามารถหาวิธีแก้ปัญหาเพื่อให้สิ่งต่าง ๆ ออกมาเหมือนกัน เพียงเพื่อหลีกเลี่ยงวิธีการของ Spearman - ซึ่งนักสถิติส่วนใหญ่สามารถจัดการกับคำสั่งมาตรฐาน ฉันเดาว่าคำแนะนำของฉันยังคงใช้วิธีการของสเปียร์แมนสำหรับกลุ่มตัวอย่างขนาดเล็ก ไม่แน่ใจว่ามีข้อพิพาทที่นี่หรือไม่
ARS

1
@ars ฉันจะใช้ Spearman ถ้าฉันสนใจ monotonic มากกว่าการเชื่อมโยงเชิงเส้นหรือถ้ามีค่าผิดปกติหรือความเบ้ระดับสูง ฉันจะใช้เพียร์สันสำหรับความสัมพันธ์เชิงเส้นหากไม่มีค่าผิดปกติ ฉันไม่คิดว่าขนาดตัวอย่างมีความเกี่ยวข้องในการเลือก
Rob Hyndman

3
@Rob: ตกลงขอบคุณสำหรับการอภิปราย ฉันเห็นด้วยกับส่วนแรก แต่สงสัยในที่สุดและจะรวมขนาดนั้นเท่านั้นที่มีบทบาทเพราะ asymptotics ปกติใช้ไม่ได้ ยกตัวอย่างเช่น Kowalski 1972 มีการสำรวจประวัติศาสตร์ที่ดีงามและสรุปว่าความสัมพันธ์ของ Pearson นั้นไม่แข็งแกร่งอย่างที่คิด ดู: jstor.org/pss/2346598
ARS
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.