ฉันเรียนรู้ในสถิติเบื้องต้นว่าด้วยโมเดลเชิงเส้นทั่วไปเพื่อให้การอนุมานมีเหตุผลการสังเกตต้องเป็นอิสระ เมื่อการรวมกลุ่มเกิดขึ้นความเป็นอิสระอาจไม่ได้นำไปสู่การอนุมานที่ไม่ถูกต้องอีกต่อไปหากไม่นับรวม วิธีหนึ่งในการทำบัญชีสำหรับการทำคลัสเตอร์ดังกล่าวคือการใช้ตัวแบบผสม ฉันต้องการค้นหาชุดข้อมูลตัวอย่างจำลองหรือไม่ซึ่งแสดงให้เห็นอย่างชัดเจน ฉันพยายามใช้หนึ่งในชุดข้อมูลตัวอย่างบนไซต์ UCLA สำหรับการวิเคราะห์ข้อมูลคลัสเตอร์
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
ผลลัพธ์เหล่านี้คล้ายกันมากพอที่ฉันจะไม่คิดว่าผลลัพธ์จากlm()
สิ่งนั้นจะไม่ถูกต้อง ฉันได้ดูตัวอย่างอื่น ๆ (เช่น5.2 จากศูนย์มหาวิทยาลัยบริสตอลสำหรับการสร้างแบบจำลองหลายระดับ ) และพบว่าข้อผิดพลาดมาตรฐานก็ไม่แตกต่างกันมาก (ฉันไม่สนใจผลการสุ่มด้วยตนเองจากโมเดลผสม แต่ก็คุ้มค่าที่จะสังเกตว่า ICC จากเอาต์พุตโมเดลผสมคือ 0.42)
ดังนั้นคำถามของฉันคือ 1) ภายใต้เงื่อนไขว่าข้อผิดพลาดมาตรฐานจะแตกต่างกันอย่างชัดเจนเมื่อเกิดการรวมกลุ่มและ 2) บางคนสามารถให้ตัวอย่างของชุดข้อมูลดังกล่าว (จำลองหรือไม่)