ความสำคัญของสัมประสิทธิ์สหสัมพันธ์เฉลี่ย


11

ข้อจำกัดความรับผิดชอบ: หากคุณพบว่าคำถามนี้คล้ายกับคำถามอื่นมากเกินไปฉันยินดีที่จะรวมเข้าด้วยกัน อย่างไรก็ตามฉันไม่พบคำตอบที่น่าพอใจที่อื่น (และยังไม่มี "ชื่อเสียง" ที่จะแสดงความคิดเห็นหรือ upvote) ดังนั้นฉันคิดว่ามันเป็นการดีที่สุดที่จะถามคำถามใหม่ด้วยตัวเอง

คำถามของฉันคือสิ่งนี้ สำหรับวิชามนุษย์ 12 คนฉันได้คำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (Spearman's rho) ระหว่าง 6 ระดับของตัวแปรอิสระ X และการสังเกตที่สอดคล้องกันของตัวแปรตาม Y (หมายเหตุ: ระดับของ X ไม่เท่ากันในทุกวิชา) สมมุติฐานว่างคือในประชากรทั่วไปความสัมพันธ์นี้เท่ากับศูนย์ ฉันได้ทดสอบสมมติฐานนี้สองวิธี:

  1. ใช้การทดสอบทีหนึ่งตัวอย่างในสัมประสิทธิ์สหสัมพันธ์ที่ได้รับจาก 12 วิชาของฉัน

  2. โดยการจัดศูนย์กลางของระดับ X และการสังเกตของ Y เช่นนั้นสำหรับผู้เข้าร่วมแต่ละคนค่าเฉลี่ย (X) = 0 และค่าเฉลี่ย (Y) = 0 จากนั้นคำนวณความสัมพันธ์กับข้อมูลรวม (72 ระดับของ X และ 72 การสังเกตของ Y) .

ตอนนี้จากการอ่านเกี่ยวกับการทำงานกับสัมประสิทธิ์สหสัมพันธ์ (ที่นี่และที่อื่น ๆ ) ฉันเริ่มสงสัยว่าวิธีแรกนั้นใช้ได้หรือไม่ โดยเฉพาะอย่างยิ่งฉันได้เห็นสมการต่อไปนี้ปรากฏขึ้นในหลาย ๆ สถานที่นำเสนอ (เห็นได้ชัด) เป็น t-test สำหรับค่าสัมประสิทธิ์การเฉลี่ย:

t=rSEr=n21r2

โดยที่จะเป็นค่าสัมประสิทธิ์สหสัมพันธ์เฉลี่ย (และสมมุติว่าเราได้รับสิ่งนี้โดยใช้การแปลงของฟิชเชอร์ในสัมประสิทธิ์ต่อวิชาก่อน) และจำนวนการสังเกต อย่างสังหรณ์ใจดูเหมือนว่าฉันจะผิดเพราะมันไม่ได้รวมการวัดความแปรปรวนระหว่างเรื่องใด ๆ กล่าวอีกนัยหนึ่งถ้าฉันมีสัมประสิทธิ์สหสัมพันธ์ 3 ตัวฉันจะได้ค่า t-statistic เดียวกันไม่ว่าจะเป็น [0.1, 0.5, 0.9] หรือ [0.45 0.5 0.55] หรือช่วงของค่าใด ๆ ที่มีค่าเฉลี่ยเท่ากัน (และ )n n = 3rnn=3

ฉันสงสัยว่าดังนั้นที่สมการข้างต้นไม่ได้ในความเป็นจริงนำไปใช้เมื่อการทดสอบความสำคัญของค่าเฉลี่ยของค่าสัมประสิทธิ์สหสัมพันธ์ แต่เมื่อการทดสอบอย่างมีนัยสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เพียงครั้งเดียวบนพื้นฐานของสังเกตของ 2 ตัวแปรn

มีใครที่นี่โปรดยืนยันสัญชาตญาณนี้หรืออธิบายว่าทำไมมันผิด นอกจากนี้หากสูตรนี้ใช้ไม่ได้กับกรณีของฉันไม่มีใครรู้ / วิธีการที่ถูกต้อง? หรือบางทีหมายเลขทดสอบของฉันเอง 2 ใช้ได้แล้ว? ความช่วยเหลือใด ๆ ได้รับการชื่นชมอย่างมาก (รวมถึงตัวชี้ไปยังคำตอบก่อนหน้าซึ่งฉันอาจพลาดหรือตีความผิด)


2
เพียร์สันคือความรู้สึกที่อยู่ตรงกลางและปรับแปลงดังนั้นฉันคิดว่าอยู่ตรงกลางไม่เกี่ยวข้องกับคำถามของคุณ ตัวอย่างเช่น cor ( ) = cor ( ) = cor ( ) = cor ( ) X , Y X , Y - ˉ Y X , Y + 1000 X , Y × 1000rX,YX,YY¯X,Y+1000X,Y×1000
Alexis

ฉันเห็นด้วยกับคุณ. นั่นเป็นเหตุผลที่ฉันตีความว่าการจัดกึ่งกลางว่า "การจัดกึ่งกลางแต่ละตัวแปรแยกกันก่อนที่จะรวมเข้าด้วยกัน"
Federico Tedeschi

1
@FedericoTedeschi ไม่ใช่ "การรวมตัวแปรแต่ละตัวไว้ก่อนที่จะรวมเข้าด้วยกัน"หมายถึงอะไร YY¯
Alexis

@Alexis ฉันได้ตอบคุณที่ด้านล่างของคำตอบของฉัน (มันจะนานเกินไปที่จะเขียนในความคิดเห็นและฉันจะต้องแก้ไขหลายครั้งเนื่องจากปัญหา WYSINWYG)
Federico Tedeschi

คำตอบ:


2

วิธีที่ดีกว่าในการวิเคราะห์ข้อมูลนี้คือการใช้ (หรือที่รู้จักกันว่าแบบผสมเอฟเฟกต์แบบจำลองลำดับชั้น) subjectที่มีผลแบบสุ่ม (การสกัดกั้นแบบสุ่มหรือการสกัดกั้นแบบสุ่ม + ความชันลาด) เพื่อสรุปคำตอบที่แตกต่างของฉัน:

นี่คือการถดถอยแบบที่ความสัมพันธ์โดยรวมเดียวในขณะที่อนุญาตให้ความสัมพันธ์นั้นแตกต่างกันระหว่างกลุ่ม (วิชามนุษย์) วิธีการนี้ได้ประโยชน์จากการรวมบางส่วนและใช้ข้อมูลของคุณอย่างมีประสิทธิภาพยิ่งขึ้น


-1

ฉันคิดว่าตัวแปรตัว (และ ) เหมือนกันสำหรับทุกคน (จริง ๆ แล้วฉันไม่แน่ใจว่าฉันเข้าใจสิ่งที่คุณหมายถึงโดยการพูดว่าระดับไม่เท่ากันในวิชา: ฉันหวังว่าคุณจะ หมายถึงความเป็นอิสระในช่วงของตัวแปรไม่ใช่เกี่ยวกับตัวแปรที่วัดสำหรับแต่ละบุคคล) ใช่สูตรที่คุณแสดงนำไปใช้กับสัมประสิทธิ์สหสัมพันธ์ระหว่างสองตัวแปร6 X 6 Y126 X6 Y

ในจุดที่ 2 ของคุณคุณพูดถึงการทำให้เป็นมาตรฐาน: ฉันคิดว่ามันจะสมเหตุสมผลถ้าคุณทำกับตัวแปรตัวแยกกัน อย่างไรก็ตามถึงกระนั้นปัญหาด้วยวิธีนี้ก็คือมันไม่ได้ควบคุมการพึ่งพาภายในบุคคล62

ผมเชื่อว่าวิธีการของคุณ 1 ไม่ถูกต้องอย่างใดอย่างหนึ่งเพราะมันจะมีการทดสอบในหมู่ตัวแปรที่มีการกระจายที่มีเพียงองศาอิสระดังนั้นผมจึงไม่คิดว่าคุณสามารถใช้ทฤษฎีขีด จำกัด กลางในกรณีนี้t 106t10

บางทีด้วยจำนวนที่มากขึ้นคุณสามารถใช้วิธีเอฟเฟ็กต์แบบสุ่มทำให้สามารถทดสอบความชันแบบสุ่มและทดสอบค่าสัมประสิทธิ์เฉลี่ยเป็นโมฆะ (ของกับ ) และค่าสัมประสิทธิ์การสุ่มไม่มีอยู่ ฉันเชื่อว่าตัวแปร 6 ตัวและข้อสังเกต 12 ข้อไม่เพียงพอที่จะทำY iXiYi

ฉันขอแนะนำให้คุณดูว่าเป็นการทดสอบค่า 6 ค่า (กลายเป็น 12 ถ้าคุณพิจารณาค่าต่ำกว่าเส้นทแยงมุม) ของเมทริกซ์สหสัมพันธ์ระหว่างตัวแปรตัว (ทั้งและ ) นั่นคือค่าที่อยู่ในแนวทแยงมุมของ 2 (และ เท่ากับ 3) Quadrant ดังนั้นฉันจะทำการทดสอบอัตราส่วนความน่าจะเป็นระหว่างโมเดลที่ถูก จำกัด และแบบไม่ จำกัด12XY

@Alexis ความเข้าใจของฉันอยู่ตรงกลาง , โดยแทนที่ด้วยจะเข้าท่า (ฉันคิดว่ามันก็สมเหตุสมผลที่จะแบ่งพวกเขาด้วยของพวกเขา) ด้วยวิธีนี้ตัวแปรและ (สร้างขึ้นโดยพิจารณาราวกับว่าพวกเขาเกิดขึ้นกับตัวแปรที่ไม่ซ้ำกันและเหมือนกันสำหรับ )เฉลี่ย ในทางตรงกันข้ามถ้าเราสร้างตัวแปรสองตัวก่อน (สร้างโดยพิจารณาX1,,X6Y1,,Y6X1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,YXi,1i6ราวกับว่าพวกเขากำลังเกิดขึ้นของตัวแปรที่ไม่ซ้ำกันและเหมือนกันสำหรับ ) แล้วแน่นอนว่าการลบค่าเฉลี่ย (และหารด้วย SE ของและ ) จะไม่เปลี่ยนแปลงสิ่งต่าง ๆYiXY

แก้ไข 01/01/18

อนุญาตให้ระบุตัวแปรและ ( ) แต่ละรายการ จากนั้นสมมติว่าเรามี:ij1j12

X1j=Y1j=10,j ;

X2j=Y2j=8,j ;

X3j=Y3j=6,j ;

X4j=Y4j=4,j ;

X5j=Y5j=2,j ;

X6j=Y6j=j,jเจ

ความสัมพันธ์ในกรณีนี้ควรจะเป็น0.54280.5428

ถ้าเราศูนย์แต่ละตัวแปรที่กำหนดว่าสำหรับทั้งและมีการเปลี่ยนแปลงใด ๆ ที่เรามี: 0 สำหรับเราได้ค่า (เช่นสำหรับ 's:และตรงข้ามกับ ) ตั้งแต่และเราได้รับ: , อ้างความสัมพันธ์ของ-11i5XiYiXij=Yij=0i=6X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j)Xij=Yiji,jX=Y1


ฉันเห็นด้วยกับคุณถ้าเราทำตามขั้นตอนที่สอง นั่นเป็นเหตุผลที่ฉันเชื่อว่า Ruben van Bergen หมายถึงสิ่งที่ฉันอธิบายไว้ในขั้นตอนที่ 1 ในกรณีนี้เรามี: , แต่ไม่ใช่ จริงโดยทั่วไป ฉันกำลังแก้ไขโพสต์ของฉันเพื่อแสดงตัวอย่างเคาน์เตอร์ cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)
Federico Tedeschi

ค่าที่ให้ความสัมพันธ์กับคือ: ; เวลา . มันไม่สำคัญว่าไม่ว่าจะเป็นความสัมพันธ์ที่เป็นจริงเพราะมันมีความแตกต่างอย่างชัดเจนจาก-10.5428X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.54281
Federico Tedeschi

ความสัมพันธ์ระหว่างและเป็น-1ความจริงที่คุณพูดว่าและนำไปสู่การครเป็นจริง แต่นี่เท่านั้น หมายความว่า นั่นคือสิ่งที่ฉันได้เขียนไปแล้ว X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.51X=1,,12Y=12,,1cor(X,Y)=cor(X,Y)=1cor(Xi,Yi)=cor(Xi,Yi)
Federico Tedeschi

แน่นอนคร : นี่คือผลของการแปรปรวนของความสัมพันธ์กับการแปลงเชิงเส้น นี่คือสิ่งที่ฉันได้ตกลงกันแล้วในความคิดเห็นแรกของฉัน "ฉันเห็นด้วยกับคุณนั่นคือเหตุผลที่ฉันตีความกลางเป็น" ศูนย์กลางแต่ละตัวแปรแยกกันก่อนที่จะนำพวกเขากัน "." - Federico Tedeschi 27 ธันวาคม 17 ที่ 10:27cor(X;Y)=cor(XX¯;YY¯)
Federico Tedeschi

บางทีฉันไม่เข้าใจว่า "การรวมตัวแปรแต่ละตัวไว้ตรงกลางก่อนที่จะรวมเข้าด้วยกัน" หมายถึงอะไร สำหรับฉันหมายถึงคือ "อยู่ตรงกลาง ตัวแปรแยกต่างหากก่อนที่จะนำมารวมกัน ". คุณช่วยฉันเข้าใจความเข้าใจที่แตกต่างของเราได้ไหม? X 1 - ˉ X , X 2 - ˉ X , , X n - ˉ XXX¯X1X¯,X2X¯,,XnX¯
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.