สมมติว่าเราทดสอบความสัมพันธ์เพียร์สันระหว่างตัวแปรและอยู่ในกลุ่มและBเป็นไปได้ไหมที่ความสัมพันธ์จะมีนัยสำคัญในแต่ละและแต่ไม่สำคัญเมื่อรวมข้อมูลจากทั้งสองกลุ่มเข้าด้วยกัน? ในกรณีนี้คุณช่วยกรุณาอธิบายให้ฟังหน่อยได้ไหม
สมมติว่าเราทดสอบความสัมพันธ์เพียร์สันระหว่างตัวแปรและอยู่ในกลุ่มและBเป็นไปได้ไหมที่ความสัมพันธ์จะมีนัยสำคัญในแต่ละและแต่ไม่สำคัญเมื่อรวมข้อมูลจากทั้งสองกลุ่มเข้าด้วยกัน? ในกรณีนี้คุณช่วยกรุณาอธิบายให้ฟังหน่อยได้ไหม
คำตอบ:
ใช่เป็นไปได้และสามารถเกิดขึ้นได้ทุกประเภท ตัวอย่างที่ชัดเจนหนึ่งคือเมื่อเลือกสมาชิกภาพ A และ B ด้วยวิธีที่สะท้อนค่าของ x และ y ตัวอย่างอื่น ๆ ที่เป็นไปได้เช่น @ ความคิดเห็นของแมโครแนะนำความเป็นไปได้ทางเลือก
ลองพิจารณาตัวอย่างด้านล่างที่เขียนใน R. x และ y เป็นตัวแปรปกติมาตรฐานของ iid แต่ถ้าฉันจัดสรรพวกมันให้กับกลุ่มตามค่าสัมพัทธ์ของ x และ y ฉันจะได้ชื่อของคุณ ภายในกลุ่ม A และกลุ่ม B มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่าง x และ y แต่ถ้าคุณไม่สนใจโครงสร้างการจัดกลุ่มจะไม่มีความสัมพันธ์กัน
> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)
Pearson's product-moment correlation
data: x and y
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.09292 0.03094
sample estimates:
cor
-0.03111
> cor.test(x[Group=="A"], y[Group=="A"])
Pearson's product-moment correlation
data: x[Group == "A"] and y[Group == "A"]
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4040 0.5414
sample estimates:
cor
0.4756
> cor.test(x[Group=="B"], y[Group=="B"])
Pearson's product-moment correlation
data: x[Group == "B"] and y[Group == "B"]
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3292 0.4744
sample estimates:
cor
0.4043
> qplot(x,y, color=Group)
ความเป็นไปได้หนึ่งคือผลกระทบที่อาจจะเป็นไปในทิศทางที่แตกต่างกันในแต่ละกลุ่มและจะถูกยกเลิกออกเมื่อคุณรวมพวกเขา สิ่งนี้ยังเกี่ยวข้องกับวิธีเมื่อคุณไม่ใส่คำที่มีความสำคัญในตัวแบบการถดถอยผลกระทบหลักอาจทำให้เข้าใจผิด
ตัวอย่างเช่นสมมติว่าในกลุ่มความสัมพันธ์ที่แท้จริงระหว่างการตอบสนองและตัวทำนายคือ:
และในกลุ่ม ,
สมมติว่ามีการกระจายความเป็นสมาชิกของกลุ่มเพื่อให้จากนั้นถ้าคุณใช้ความเป็นสมาชิกกลุ่มและคำนวณโดยกฎหมายแห่งความคาดหวังโดยรวมที่ คุณได้รับ
ดังนั้นถ้า ,และไม่ขึ้นอยู่กับเลย ดังนั้นจึงมีความสัมพันธ์ภายในทั้งสองกลุ่ม แต่เมื่อคุณรวมเข้าด้วยกันจะไม่มีความสัมพันธ์ ในคำอื่น ๆ สำหรับบุคคลที่สุ่มเลือกในกลุ่มประชากรที่มีสมาชิกของกลุ่มเราไม่ทราบว่าจะมีโดยเฉลี่ยจะไม่มีความสัมพันธ์ระหว่างและy_iแต่ภายในแต่ละกลุ่มก็มี
ตัวอย่างใด ๆ ที่ค่าสมดุลอย่างสมบูรณ์ขนาดผลภายในแต่ละกลุ่มจะนำไปสู่ผลลัพธ์นี้ - นี่เป็นเพียงตัวอย่างของเล่นนี้เพื่อให้การคำนวณง่าย :)
หมายเหตุ:ด้วยข้อผิดพลาดปกติความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นเท่ากับความสำคัญของสหสัมพันธ์ของเพียร์สันดังนั้นตัวอย่างนี้จะเน้นคำอธิบายของสิ่งที่คุณเห็น