ฉันอยากจะแนะนำว่าปรากฏการณ์นี้ (ของการทดสอบโดยรวมที่ไม่มีนัยสำคัญแม้จะมีตัวแปรแต่ละตัวที่มีนัยสำคัญ) สามารถเข้าใจได้ว่าเป็น "การกำบังผลกระทบ" แบบรวมและแม้ว่ามันจะเกิดขึ้นได้จากตัวแปรอธิบายแบบหลายมิติ ที่ทั้งหมด นอกจากนี้ยังปรากฏว่าไม่ได้เกิดจากการปรับการเปรียบเทียบหลายรายการเช่นกัน ดังนั้นคำตอบนี้คือการเพิ่มคุณสมบัติบางอย่างให้กับคำตอบที่ปรากฏอยู่แล้วซึ่งในทางตรงกันข้ามชี้ให้เห็นว่าความหลากหลายทางชีวภาพหรือการเปรียบเทียบหลาย ๆ ครั้งควรถูกมองว่าเป็นผู้กระทำผิด
เพื่อสร้างความน่าเชื่อถือของการยืนยันเหล่านี้เราจะสร้างคอลเลกชันของตัวแปรorthogonal ที่สมบูรณ์แบบเช่นเดียวกับที่ไม่ใช่ collinear ที่เป็นไปได้และตัวแปรตามขึ้นอยู่กับว่าจะถูกกำหนดอย่างชัดเจนโดยแรกของคำอธิบาย เป็นอิสระจากทุกสิ่ง) ในR
สิ่งนี้สามารถทำได้ (ทำซ้ำถ้าคุณต้องการที่จะทดสอบ) เป็น
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
มันไม่สำคัญว่าตัวแปรอธิบายเป็นไบนารี สิ่งสำคัญคือ orthogonality ของพวกเขาซึ่งเราสามารถตรวจสอบเพื่อให้แน่ใจว่ารหัสทำงานตามที่คาดไว้ซึ่งสามารถทำได้โดยการตรวจสอบความสัมพันธ์ของพวกเขา อันที่จริงแล้วเมทริกซ์สหสัมพันธ์นั้นน่าสนใจ : ค่าสัมประสิทธิ์ขนาดเล็กที่แนะนำy
นั้นมีน้อยมากที่เกี่ยวข้องกับตัวแปรใด ๆ ยกเว้นตัวแปรแรก (ซึ่งก็คือการออกแบบ) และศูนย์แบบทแยงมุมยืนยันค่ามุมฉากของตัวแปรอธิบาย:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
ลองเรียกใช้ชุดการถดถอยโดยใช้ตัวแปรแรกเท่านั้นจากนั้นสองตัวแรกและต่อไปเรื่อย ๆ สำหรับการเปรียบเทียบที่สั้นและง่ายในแต่ละอันฉันจะแสดงเฉพาะบรรทัดสำหรับตัวแปรแรกและการทดสอบ F โดยรวม:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
ดูว่า (a) ความสำคัญของตัวแปรแรกเปลี่ยนแปลงอย่างไร (a ') ตัวแปรแรกยังคงมีความสำคัญ (p <.05) แม้ว่าจะปรับการเปรียบเทียบหลายครั้ง ( เช่นใช้ Bonferroni โดยการคูณค่า p-value ที่กำหนดโดย จำนวนตัวแปรอธิบาย), (b) สัมประสิทธิ์ของตัวแปรแรกแทบจะไม่เปลี่ยนแปลง แต่ (c) ความสำคัญโดยรวมเพิ่มขึ้นแบบทวีคูณขยายตัวอย่างรวดเร็วสู่ระดับที่ไม่สำคัญ
ฉันตีความสิ่งนี้เป็นการแสดงให้เห็นว่ารวมถึงตัวแปรอธิบายที่ส่วนใหญ่เป็นอิสระจากตัวแปรตามสามารถ "ปกปิด" ค่า p-value โดยรวมของการถดถอย เมื่อตัวแปรใหม่เป็นมุมฉากเป็นตัวแปรที่มีอยู่แล้วและกับตัวแปรตามพวกมันจะไม่เปลี่ยนค่า p แต่ละค่า (การเปลี่ยนแปลงเล็กน้อยที่เห็นในที่นี้เป็นเพราะความผิดพลาดแบบสุ่มที่เพิ่มเข้ามาy
คือโดยบังเอิญมีความสัมพันธ์เล็กน้อยกับตัวแปรอื่น ๆ ทั้งหมด) บทเรียนหนึ่งในการดึงออกมาจากที่นี่คือการแยกวิเคราะห์ความมีค่า : การใช้ตัวแปรน้อยเท่าที่จำเป็น ผลลัพธ์
ฉันไม่ได้บอกว่าสิ่งนี้จะเกิดขึ้นกับชุดข้อมูลในคำถามซึ่งมีการเปิดเผยเพียงเล็กน้อยเท่านั้น แต่ความรู้ที่ว่าผลกระทบกำบังนี้สามารถเกิดขึ้นได้ควรแจ้งให้เราทราบถึงการตีความผลลัพธ์รวมถึงกลยุทธ์ของเราในการเลือกตัวแปรและการสร้างแบบจำลอง