ความสัมพันธ์ที่สำคัญในแต่ละกลุ่ม แต่ไม่สำคัญกว่าทั้งหมด?


9

สมมติว่าเราทดสอบความสัมพันธ์เพียร์สันระหว่างตัวแปรและอยู่ในกลุ่มและBเป็นไปได้ไหมที่ความสัมพันธ์จะมีนัยสำคัญในแต่ละและแต่ไม่สำคัญเมื่อรวมข้อมูลจากทั้งสองกลุ่มเข้าด้วยกัน? ในกรณีนี้คุณช่วยกรุณาอธิบายให้ฟังหน่อยได้ไหมxyAB(x,y)AB

คำตอบ:


21

ใช่เป็นไปได้และสามารถเกิดขึ้นได้ทุกประเภท ตัวอย่างที่ชัดเจนหนึ่งคือเมื่อเลือกสมาชิกภาพ A และ B ด้วยวิธีที่สะท้อนค่าของ x และ y ตัวอย่างอื่น ๆ ที่เป็นไปได้เช่น @ ความคิดเห็นของแมโครแนะนำความเป็นไปได้ทางเลือก

ลองพิจารณาตัวอย่างด้านล่างที่เขียนใน R. x และ y เป็นตัวแปรปกติมาตรฐานของ iid แต่ถ้าฉันจัดสรรพวกมันให้กับกลุ่มตามค่าสัมพัทธ์ของ x และ y ฉันจะได้ชื่อของคุณ ภายในกลุ่ม A และกลุ่ม B มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่าง x และ y แต่ถ้าคุณไม่สนใจโครงสร้างการจัดกลุ่มจะไม่มีความสัมพันธ์กัน

ป้อนคำอธิบายรูปภาพที่นี่

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1 นี่เป็นตัวอย่างที่ฉลาดมากที่ไม่ได้เกิดขึ้นกับฉัน
มาโคร

13

ความเป็นไปได้หนึ่งคือผลกระทบที่อาจจะเป็นไปในทิศทางที่แตกต่างกันในแต่ละกลุ่มและจะถูกยกเลิกออกเมื่อคุณรวมพวกเขา สิ่งนี้ยังเกี่ยวข้องกับวิธีเมื่อคุณไม่ใส่คำที่มีความสำคัญในตัวแบบการถดถอยผลกระทบหลักอาจทำให้เข้าใจผิด

ตัวอย่างเช่นสมมติว่าในกลุ่มความสัมพันธ์ที่แท้จริงระหว่างการตอบสนองและตัวทำนายคือ:Ayixi

E(yi|xi,Group A)=1+xi

และในกลุ่ม ,B

E(yi|xi,Group B)=1xi

สมมติว่ามีการกระจายความเป็นสมาชิกของกลุ่มเพื่อให้จากนั้นถ้าคุณใช้ความเป็นสมาชิกกลุ่มและคำนวณโดยกฎหมายแห่งความคาดหวังโดยรวมที่ คุณได้รับ

P(Group A)=1P(Group B)=p
E(yi|xi)

E(yi|xi)=E(E(yi|xi,Group))=p(1+xi)+(1p)(1xi)=p+pxi+1xip+pxi=1xi(2p1)

ดังนั้นถ้า ,และไม่ขึ้นอยู่กับเลย ดังนั้นจึงมีความสัมพันธ์ภายในทั้งสองกลุ่ม แต่เมื่อคุณรวมเข้าด้วยกันจะไม่มีความสัมพันธ์ ในคำอื่น ๆ สำหรับบุคคลที่สุ่มเลือกในกลุ่มประชากรที่มีสมาชิกของกลุ่มเราไม่ทราบว่าจะมีโดยเฉลี่ยจะไม่มีความสัมพันธ์ระหว่างและy_iแต่ภายในแต่ละกลุ่มก็มีp=1/2E(yi|xi)=1xixiyi

ตัวอย่างใด ๆ ที่ค่าสมดุลอย่างสมบูรณ์ขนาดผลภายในแต่ละกลุ่มจะนำไปสู่ผลลัพธ์นี้ - นี่เป็นเพียงตัวอย่างของเล่นนี้เพื่อให้การคำนวณง่าย :)p

หมายเหตุ:ด้วยข้อผิดพลาดปกติความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นเท่ากับความสำคัญของสหสัมพันธ์ของเพียร์สันดังนั้นตัวอย่างนี้จะเน้นคำอธิบายของสิ่งที่คุณเห็น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.