สัมประสิทธิ์สหสัมพันธ์ของ Pearson แข็งแกร่งแค่ไหนต่อการละเมิดกฎเกณฑ์ทั่วไป?


20

ข้อมูลของตัวแปรบางประเภทมีแนวโน้มที่ไม่ปกติเมื่อวัดจากประชากรโดยเฉพาะ (เช่นระดับของภาวะซึมเศร้าในประชากรของคนที่มีโรคซึมเศร้า) จากการที่ Pearson ใช้เกณฑ์ปกติสถิติการทดสอบภายใต้เงื่อนไขที่ไม่เป็นมาตรฐานนั้นแข็งแกร่งแค่ไหน?

ฉันมีตัวแปรหลายตัวที่ฉันต้องการค่าสัมประสิทธิ์สหสัมพันธ์ แต่ความเบ้ของ Z สำหรับตัวแปรเหล่านี้บางอย่างนั้นมีความสำคัญที่p <.001 (และนั่นก็เป็นตัวอย่างที่ค่อนข้างเล็ก) ฉันได้ลองเปลี่ยนรูปแล้ว แต่การปรับปรุงการกระจายตัวนั้นดีที่สุดเพียงเล็กน้อย

ฉันจะต้องติดกับการวิเคราะห์ที่ไม่ใช่พารามิเตอร์หรือไม่ และไม่เพียง แต่สำหรับสหสัมพันธ์ แต่สำหรับการวิเคราะห์ประเภทอื่นด้วย


เดี๋ยวก่อนสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันถือว่าเป็นเรื่องปกติ? ฉันไม่คิดว่าจะทำได้และฉันใช้มันกับข้อมูลที่ไม่ปกติ มันไม่แข็งแรงสำหรับบางสิ่งที่เกิดขึ้นบ่อยขึ้นในบางสถานการณ์ที่ไม่ปกติ แต่มีสถานการณ์ที่ไม่ปกติมากมายที่ฉันเห็นไม่มีปัญหากับการใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน
Douglas Zare

1
ความสัมพันธ์ของเพียร์สันนั้นถือว่าเป็นเรื่องธรรมดา ฉันเคยได้ยินที่อื่นว่าปกติเป็นข้อสันนิษฐานที่ไม่จำเป็นสำหรับ r ของ Pearson เมื่อฉันทำการวิเคราะห์ทั้ง Pearson's และ Spearman นั้นให้ผลลัพธ์ที่คล้ายคลึงกัน
Archeopteryx

ค่าสัมประสิทธิ์สหสัมพันธ์ของสเปียร์แมนคือสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันซึ่งใช้กับการจัดอันดับที่ไม่ปกติ ฉันยังไม่รู้ว่าคุณเชื่อในความหมายของ Pearson หรือไม่ บางทีคุณสามารถพูดสิ่งพิเศษบางอย่างในกรณีที่คุณใช้มันในการกระจายปกติหลายตัวแปร
Douglas Zare

ฉันแค่ใช้มันเพื่อหาค่าสหสัมพันธ์แบบ bivariate ฉันไม่แน่ใจว่าทำไมมันถึงอ้างว่าจำเป็นต้องมีกฎเกณฑ์ ข้อความสถิติที่ฉันได้อ่านแสดงรายการเรื่องภาวะปกติเป็นข้อสันนิษฐานของสหสัมพันธ์ของเพียร์สันและแนะนำให้ใช้สเปียร์แมนสำหรับเงื่อนไขที่ไม่ใช่กฎเกณฑ์
Archeopteryx

คำตอบ:


20

คำตอบสั้น ๆ : ไม่แข็งแกร่งมาก ความสัมพันธ์เป็นตัวชี้วัดของพึ่งพาเชิงเส้นและเมื่อตัวแปรหนึ่งไม่สามารถเขียนเป็นฟังก์ชันเชิงเส้นของอีกตัวแปรหนึ่ง(และยังคงมีการแจกแจงที่กำหนดไว้) คุณจะไม่มีความสัมพันธ์ที่สมบูรณ์แบบ (บวกหรือลบ) ในความเป็นจริงค่าความสัมพันธ์ที่เป็นไปได้สามารถถูก จำกัด อย่างรุนแรง

ปัญหาคือว่าในขณะที่ประชากรมีความสัมพันธ์เป็นเสมอระหว่างและ1-11ที่สำเร็จช่วงที่แน่นอนหนักขึ้นอยู่กับการกระจายร่อแร่ หลักฐานที่รวดเร็วและการสาธิต:

ช่วงที่เหมาะสมของความสัมพันธ์

ถ้ามีฟังก์ชั่นการกระจายHและฟังก์ชันการแจกแจงขอบFและGมีขอบเขตบนและล่างค่อนข้างดีสำหรับH , H - ( x , y ) H ( x , y ) H + ( x , Y ) , เรียกว่าขอบเขตFréchet นี่คือ H - ( x , y(X,Y)HFGH

H-(x,Y)H(x,Y)H+(x,Y),
(พยายามพิสูจน์มันไม่ยากมาก)
H-(x,Y)=สูงสุด(F(x)+G(Y)-1,0)H+(x,Y)=นาที(F(x),G(Y)).

ขอบเขตเป็นฟังก์ชันกระจายตัว ให้มีการกระจายแบบสม่ำเสมอ ขอบเขตบนคือฟังก์ชันการกระจายของ( X , Y ) = ( F - ( U ) , G - ( U ) )และขอบเขตล่างคือฟังก์ชันการกระจายของ( F - ( - U ) , G - ( 1 - U ) )ยู(X,Y)=(F-(ยู),G-(ยู))(F-(-ยู),G-(1-ยู))

ตอนนี้ใช้ตัวแปรนี้กับสูตรสำหรับความแปรปรวนร่วม, เราจะเห็นว่าเราได้รับสูงสุดและต่ำสุดความสัมพันธ์เมื่อ Hเท่ากับ H +และ H -ตามลำดับกล่าวคือเมื่อ Yเป็น (บวกหรือลบตามลำดับ) ฟังก์ชั่นเดียวของX

Cov(X,Y)=H(x,Y)-F(x)G(Y)dxdY,
HH+H-YX

ตัวอย่าง

นี่คือตัวอย่างบางส่วน (ที่ไม่มีหลักฐาน):

  1. เมื่อและYจะกระจายตามปกติเราได้รับสูงสุดและต่ำสุดเมื่อ( X , Y )มี bivariate ปกติกระจายปกติที่Yเขียนเป็นฟังก์ชั่นเชิงเส้นของX นั่นคือเราได้รับค่าสูงสุดสำหรับ Y = μ Y + σ Y X - μ XXY(X,Y)YX ที่นี่ขอบเขตคือ (แน่นอน)-1และ1ไม่ว่าความหมายและความแปรปรวนXและYจะมีอะไร

    Y=μY+σYX-μXσX.
    -11XY
  2. เมื่อและYมีการแจกแจงแบบ lognormal ขอบเขตล่างจะไม่สามารถบรรลุได้ดังที่บอกเป็นนัยว่าYสามารถเขียนY = a - b XสำหรับaและbบวกและYไม่สามารถลบได้ มีสูตร (น่าเกลียดเล็กน้อย) สำหรับขอบเขตที่แน่นอน แต่ขอผมใช้กรณีพิเศษ เมื่อXและYมีการแจกแจงแบบล็อกนอร์มัลมาตรฐาน (หมายความว่าเมื่อมีการยกกำลังพวกมันเป็นแบบปกติ) ช่วงที่สามารถบรรลุได้คือ[ - 1 / e , 1 ] XYYY=a-XaYXY ] (โดยทั่วไปขอบเขตบนถูก จำกัด เช่นกัน)[-1/อี,1][-0.37,1]

  3. เมื่อมีการแจกแจงแบบปกติมาตรฐานและYมีการแจกแจงแบบล็อกนอร์มัลมาตรฐานขอบเขตความสัมพันธ์คือ ± 1XY

    ±1อี-10.76

โปรดทราบว่าขอบเขตทั้งหมดมีไว้สำหรับประชากรความสัมพันธ์ของความสัมพันธ์ตัวอย่างสามารถขยายออกไปนอกขอบเขตได้ง่ายโดยเฉพาะอย่างยิ่งสำหรับตัวอย่างขนาดเล็ก (ตัวอย่างรวดเร็ว: ขนาดตัวอย่าง 2)

การประมาณขอบเขตความสัมพันธ์

ที่จริงแล้วมันค่อนข้างง่ายที่จะประมาณค่าขอบเขตบนและล่างของสหสัมพันธ์หากคุณสามารถจำลองจากการแจกแจงที่ขอบ สำหรับตัวอย่างสุดท้ายข้างต้นเราสามารถใช้รหัส R นี้:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

หากเรามีข้อมูลจริงและไม่ทราบถึงการกระจายเล็กน้อยเรายังคงสามารถใช้วิธีการข้างต้นได้ มันไม่ใช่ปัญหาที่ตัวแปรขึ้นอยู่กับตราบเท่าที่คู่การสังเกตนั้นขึ้นอยู่กับ แต่มันช่วยให้มีการสังเกตหลายคู่

การแปลงข้อมูล

YXแจกแจงแบบปกติ bivariate ความสัมพันธ์มีการตีความที่ดี (สแควร์คือความแปรปรวนของตัวแปรหนึ่ง ) นี่ไม่ใช่กรณีที่นี่

สิ่งที่คุณกำลังทำอยู่ที่นี่จริง ๆ คือการสร้างตัวชี้วัดใหม่ของการพึ่งพาซึ่งไม่ขึ้นอยู่กับการแจกแจงที่ขอบ; คือคุณกำลังสร้างเชื่อม -Based วัดของการพึ่งพาอาศัย มีการวัดหลายอย่างเช่นSpearman's  ρและKendall's  τซึ่งเป็นที่รู้จักมากที่สุด (หากคุณสนใจแนวคิดการพึ่งพาอาศัยกันจริง ๆ มันไม่ใช่ความคิดที่ดีที่จะพิจารณาเป็น copulas)

สรุปแล้ว

ความคิดและคำแนะนำสุดท้าย: เพียงแค่มองความสัมพันธ์มีปัญหาใหญ่หนึ่งอย่าง: มันทำให้คุณหยุดคิด ในทางกลับกันการมองแผนการกระจายมักทำให้คุณเริ่มคิด คำแนะนำหลักของฉันคือการตรวจสอบแผนการกระจายและพยายามจำลองการพึ่งพาอาศัยกันอย่างชัดเจน

ที่กล่าวว่าหากคุณต้องการการวัดที่มีความสัมพันธ์อย่างง่ายฉันจะใช้ Spearman's  ρ (และช่วงความมั่นใจและการทดสอบที่เกี่ยวข้อง) ช่วงไม่ จำกัด แต่ระวังการพึ่งพาแบบไม่ใช้โมโนโทน บทความวิกิพีเดียสัมพันธ์มีคู่ของแปลงที่ดีที่แสดงปัญหาที่อาจเกิดขึ้น


1
+1 การมีส่วนร่วมที่ดีมากนี้ช่วยระบุปัญหาที่เกิดขึ้นหลายครั้งที่เกี่ยวข้องกับความสัมพันธ์อย่างชัดเจน ฉันซาบซึ้งในหมายเหตุในย่อหน้าสุดท้ายที่สรุปเกี่ยวกับการหยุด / เริ่มคิด
whuber

ความไม่ทนทานยังคงอยู่แม้จะไม่แสดงอาการหรือไม่? ถ้าเป็นเช่นนั้นwikiไม่ถูกต้องในการบอกว่า "[การแจกแจงแบบ t สำหรับการแปลง r อย่างง่ายนั้นมีค่าประมาณแม้ว่าค่าที่สังเกตจะไม่ปกติ แต่ขนาดตัวอย่างจะไม่เล็กมาก"?
สูงสุด

5

การกระจายตัวของตัวแปรเหล่านี้มีลักษณะอย่างไร (นอกเหนือจากการเบ้) หากสิ่งเดียวที่ไม่ปกติคือความเบ้การเปลี่ยนแปลงบางอย่างจะต้องช่วย แต่ถ้าตัวแปรเหล่านี้มีก้อนมากแล้วไม่มีการเปลี่ยนแปลงจะนำพวกเขาไปสู่ภาวะปกติ หากตัวแปรไม่ต่อเนื่องก็จะเป็นจริง

ความสัมพันธ์กับการละเมิดมีความแข็งแกร่งเพียงใด ดูที่ Anscombe Quartet มันแสดงให้เห็นถึงปัญหาต่าง ๆ ที่ค่อนข้างดี

สำหรับการวิเคราะห์ประเภทอื่นนั้นขึ้นอยู่กับการวิเคราะห์ หากตัวแปรที่เอียงเป็นตัวแปรอิสระในการถดถอยตัวอย่างเช่นอาจไม่มีปัญหาเลย - คุณต้องดูที่ส่วนที่เหลือ


1
ตัวแปรบางตัวยังมีปัญหากับอาการลอเรนซ์ แต่ความเบ้เป็นปัญหาที่ใหญ่ที่สุด ฉันได้ลองสแควร์รูทและการแปลงบันทึกในตัวแปรปัญหา แต่พวกเขาไม่ได้ปรับปรุงอะไรมากมาย ในความเป็นจริงการแจกแจงดูเหมือนจะเหมือนกันเกือบทุกประการ แต่มีคะแนนมากขึ้น
Archeopteryx

1
ดูเหมือนจะแปลกมาก คุณสามารถโพสต์ค่าเฉลี่ยมัธยฐานความเบ้ของค่าความแปรปรวนได้หรือไม่? หรือพล็อตความหนาแน่นของมัน (ดียิ่งขึ้น)?
Peter Flom - Reinstate Monica

6
ไม่ว่าการกระจายตัวของ (X, Y) นั้นเป็นตัวแปรปกติหรือไม่ก็ตามสหสัมพันธ์ของเพียร์สันเป็นตัวชี้วัดระดับความเป็นเส้นตรง การแจกแจงความน่าจะเป็นสำหรับการประมาณตัวอย่างนั้นจะขึ้นอยู่กับภาวะปกติ
Michael R. Chernick

3
ตัวแปรเหล่านั้นไม่ค่อยเบ้ คุณสามารถปล่อยพวกเขาตามที่เป็นอยู่
Peter Flom - Reinstate Monica

3
ไม่ต้องกังวลกับความสำคัญที่นี่ โดยทั่วไปแล้วความเบ้และความโด่งที่ <-2 หรือ> 2 ถือได้ว่าเป็นความต้องการการเปลี่ยนแปลง ยังดีกว่าคือการดูกราฟเช่นพล็อตปกติควอไทล์และพล็อตความหนาแน่นที่มีเคอร์เนลเพื่อดูว่าเกิดอะไรขึ้น
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.