คำอธิบายต่าง ๆ เกี่ยวกับการเลือกแบบจำลองที่มีผลต่อการสุ่มของตัวแบบเชิงเส้นผสมแนะนำให้ใช้ REML ฉันรู้ความแตกต่างระหว่าง REML และ ML ในบางระดับ แต่ฉันไม่เข้าใจว่าทำไมควรใช้ REML เพราะ ML นั้นมีความเอนเอียง ตัวอย่างเช่นการใช้ LRT กับพารามิเตอร์ความแปรปรวนของแบบจำลองการแจกแจงแบบปกติโดยใช้ ML นั้นเป็นความผิดหรือไม่? ฉันไม่เข้าใจว่าทำไมการมีความเป็นกลางจึงสำคัญกว่าการเป็น ML ในการเลือกรุ่น ฉันคิดว่าคำตอบที่ดีที่สุดต้องเป็น "เพราะการเลือกแบบจำลองทำงานได้ดีกับ REML มากกว่ากับ ML" แต่ฉันอยากรู้มากกว่านั้นเล็กน้อย ฉันไม่ได้อ่าน derivations ของ LRT และ AIC (ฉันไม่ดีพอที่จะเข้าใจพวกเขาอย่างละเอียด) แต่ถ้าใช้ REML อย่างชัดเจนในการอ้างอิงเพียงแค่รู้ว่ามันจะเพียงพอจริง ๆ (เช่น
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value