ทำไมจึงต้องใช้ REML (แทน ML) เพื่อเลือกระหว่างรุ่น var-covar ที่ซ้อนกัน?

คำอธิบายต่าง ๆ เกี่ยวกับการเลือกแบบจำลองที่มีผลต่อการสุ่มของตัวแบบเชิงเส้นผสมแนะนำให้ใช้ REML ฉันรู้ความแตกต่างระหว่าง REML และ ML ในบางระดับ แต่ฉันไม่เข้าใจว่าทำไมควรใช้ REML เพราะ ML นั้นมีความเอนเอียง ตัวอย่างเช่นการใช้ LRT กับพารามิเตอร์ความแปรปรวนของแบบจำลองการแจกแจงแบบปกติโดยใช้ ML นั้นเป็นความผิดหรือไม่? ฉันไม่เข้าใจว่าทำไมการมีความเป็นกลางจึงสำคัญกว่าการเป็น ML ในการเลือกรุ่น ฉันคิดว่าคำตอบที่ดีที่สุดต้องเป็น "เพราะการเลือกแบบจำลองทำงานได้ดีกับ REML มากกว่ากับ ML" แต่ฉันอยากรู้มากกว่านั้นเล็กน้อย ฉันไม่ได้อ่าน derivations ของ LRT และ AIC (ฉันไม่ดีพอที่จะเข้าใจพวกเขาอย่างละเอียด) แต่ถ้าใช้ REML อย่างชัดเจนในการอ้างอิงเพียงแค่รู้ว่ามันจะเพียงพอจริง ๆ (เช่น

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value

— เล่นลิ้น
แหล่งที่มา

เกี่ยวกับ REML และ AIC คุณควรดูคำถามนี้

— Elvis

คำตอบ:

คำตอบสั้น ๆ : REML คือ ML ดังนั้นการทดสอบตาม REML นั้นถูกต้องแล้ว เนื่องจากการประมาณค่าพารามิเตอร์ความแปรปรวนกับ REML นั้นดีกว่าจึงเป็นเรื่องปกติที่จะใช้

ทำไมเป็น REML ML พิจารณาแบบจำลอง ด้วย ,และเป็นเวกเตอร์ของเอฟเฟกต์คงที่เป็นเวกเตอร์ของเอฟเฟกต์แบบสุ่มและI_n) โอกาสที่ถูก จำกัด สามารถรับได้โดยพิจารณาความแตกต่างเพื่อ "ลบ" ผลกระทบคงที่ แม่นยำยิ่งขึ้นให้เช่นและ (นั่นคือคอลัมน์ของ

Y = X β + Z u + e

$Y = X\beta + Zu + e \def\R{\mathbb{R}}$

X \in R^{n \times p}

$X\in\R^{n\times p}$

Z \in R^{n \times q}

$Z\in\R^{n\times q}$

β \in R^{p}

$\beta \in \R^p$

u \sim N (0, τ I_{q})

$u \sim \mathcal N(0, \tau I_q)$

e \sim N (0, σ^{2} I_{n})

$e \sim \mathcal N(0, \sigma^2 I_n)$

n - p

$n-p$

C \in R^{(n - p) \times n}

$C \in \R^{(n-p)\times n}$

C X = 0

$CX = 0$

C C^{'} = I_{n - p}

$CC' = I_{n-p}$

C^{'}

$C'$ เป็นพื้นฐาน orthonormal ของเวกเตอร์สเปซ orthognal กับพื้นที่ที่สร้างโดยคอลัมน์ของ ); แล้วกับและความเป็นไปได้สำหรับรับเป็นโอกาสที่ จำกัด

X

$X$

C Y = C Z u + ϵ

$CY = CZ u + \epsilon$

ϵ \sim N (0, σ^{2} I_{n - p})

$\epsilon \sim \mathcal N(0, \sigma^2 I_{n-p})$

τ, σ^{2}

$\tau, \sigma^2$

C Y

$CY$

— เอลวิส
แหล่งที่มา

คำตอบที่ดี (+1) ฉันถูกต้องหรือไม่ที่จะบอกว่าเมทริกซ์ขึ้นอยู่กับแบบจำลองสำหรับค่าเฉลี่ย ดังนั้นคุณสามารถเปรียบเทียบค่าประมาณการ REML สำหรับเมทริกซ์เดียวกันได้หรือไม่

C

$C$

C

$C$

ใช่ขึ้นอยู่กับ (ฉันจะแก้ไขคำตอบภายในหนึ่งนาทีเพื่อให้ชัดเจน) ดังนั้นโมเดลที่ซ้อนกันของคุณต้องมีตัวแปรเดียวกันกับเอฟเฟกต์คงที่

C

$C$

X

$X$

— Elvis

REML คือไม่ ML! ML ถูกกำหนดให้ไม่ซ้ำกันสำหรับรูปแบบความน่าจะเป็นที่ได้รับ แต่ REML จะขึ้นอยู่กับการแก้ไขผลกระทบ parameterization ดูเช่นความคิดเห็นนี้โดยดั๊กเบตส์ (เช่นเดียวกับคนในประวัติศาสตร์มากมายในรุ่น R-SIG- ผสม)

— Livius

@Livius ฉันคิดว่าคำตอบของฉันระบุไว้อย่างชัดเจนว่ามีการสร้างโอกาส จำกัด มันเป็นความน่าจะเป็นไม่ใช่ความเป็นไปได้ที่สังเกตจากในแบบจำลองที่เขียนในสมการที่แสดงครั้งแรก แต่ให้เวกเตอร์ที่ฉายในแบบจำลองที่เขียนในสมการที่สองแสดง REML คือ ML ที่ได้จากโอกาสนี้

Y

$Y$

C Y

$CY$

— Elvis

ฉันคิดว่านั่นเป็นจุดที่การประท้วงของ DBates ในประเด็นนี้: มันเป็นรูปแบบที่แตกต่างกันและมันก็เป็นรูปแบบที่การเปรียบเทียบนั้นยากเพราะรูปแบบและการแปรของพารามิเตอร์เป็นพันกัน ดังนั้นคุณไม่ได้คำนวณML สำหรับรูปแบบเดิมของคุณ แต่ML สำหรับรูปแบบที่แตกต่างกันที่เกิดขึ้นจาก parameterization โดยเฉพาะอย่างยิ่งของรูปแบบเดิมของคุณ ดังนั้นโมเดลที่ติดตั้ง REML ที่มีโครงสร้างเอฟเฟกต์คงที่จึงไม่ใช่โมเดลที่ซ้อนกันอีกต่อไป (ดังที่คุณกล่าวถึงข้างต้น) แต่รุ่นที่ติดตั้งกับ ML นั้นยังคงซ้อนกันอยู่เพราะคุณจะเพิ่มโอกาสสูงสุดให้กับรุ่นที่ระบุ

— Livius

การทดสอบอัตราส่วนความน่าจะเป็นเป็นการทดสอบสมมติฐานทางสถิติที่ขึ้นอยู่กับอัตราส่วนของความน่าจะเป็นสองอย่าง คุณสมบัติของพวกมันเชื่อมโยงกับการประมาณความน่าจะเป็นสูงสุด (MLE) (ดูเช่นการประมาณความน่าจะเป็นสูงสุด (MLE) ในเงื่อนไขของคนธรรมดา )

ในกรณีของคุณ (ดูคำถาม) คุณต้องการ '' เลือก '' ในสองแบบจำลอง var-covar ที่ซ้อนกันสมมติว่าคุณต้องการเลือกระหว่างแบบจำลองที่ var-covar คือและแบบจำลองที่ var-covar คือโดยที่ตัวที่สอง (โมเดลง่าย) เป็นกรณีพิเศษของตัวแรก (ตัวแบบทั่วไป) $\Sigma_g$ $\Sigma_s$

การทดสอบจะขึ้นอยู่กับอัตราส่วนความน่าจะเป็นโดยที่และเป็นตัวประมาณค่าความน่าจะเป็นสูงสุด $LR=-2 (log(\mathcal{L}_s(\hat{\Sigma}_s)) - log(\mathcal{L}_g(\hat{\Sigma}_g) )$ $\hat{\Sigma}_s$ $\hat{\Sigma}_g$

สถิติคือasymptotically (!) 2 $LR$ $\chi^2$

การประมาณความเป็นไปได้สูงสุดเป็นที่ทราบกันว่ามีความสอดคล้องกันอย่างไรก็ตามในหลาย ๆ กรณีพวกเขามีอคติ นี่เป็นกรณีสำหรับตัวประมาณ MLE สำหรับความแปรปรวนและมันสามารถแสดงให้เห็นว่าพวกเขามีความเอนเอียง นี่เป็นเพราะพวกเขาคำนวณโดยใช้ค่าเฉลี่ยที่ได้มาจากข้อมูลเช่นการแพร่กระจายรอบ 'ค่าเฉลี่ยโดยประมาณ' นี้มีขนาดเล็กกว่าการแพร่กระจายรอบค่าเฉลี่ยที่แท้จริง (ดูตัวอย่างเช่นคำอธิบายที่เข้าใจง่ายสำหรับการหารด้วย เมื่อคำนวณค่าเบี่ยงเบนมาตรฐาน ? ) $\hat{\Sigma}_s$ $\hat{\Sigma}_g$ $n-1$

สถิติด้านบนคือในตัวอย่างขนาดใหญ่นี่เป็นเพียงเพราะความจริงที่ว่าในตัวอย่างขนาดใหญ่และมาบรรจบกับค่าที่แท้จริงของพวกเขา (MLE สอดคล้องกัน ) (หมายเหตุ: ในลิงก์ด้านบนสำหรับตัวอย่างที่มีขนาดใหญ่มากการหารด้วย n หรือโดย (n-1) จะไม่ทำให้เกิดความแตกต่าง) $LR$ $\chi^2$ $\hat{\Sigma}_s$ $\hat{\Sigma}_g$

สำหรับตัวอย่างขนาดเล็กการประมาณค่า MLE ของและจะมีอคติดังนั้นการกระจายของจะเบี่ยงเบนไปจากในขณะที่การประมาณการ REML จะให้ค่าประมาณที่เป็นกลางสำหรับและดังนั้นถ้าคุณใช้สำหรับการเลือกของรูปแบบ var-covar ที่ REML ประมาณการแล้วจะสำหรับตัวอย่างที่มีขนาดเล็กเป็นห้วงที่ดีขึ้นโดย 2 $\hat{\Sigma}_s$ $\hat{\Sigma}_g$ $LR$ $\chi^2$ $\Sigma_s$ $\Sigma_g$ $LR$ $\chi^2$

โปรดทราบว่าควรใช้ REML เพื่อเลือกระหว่างโครงสร้าง var-covar ที่ซ้อนกันของแบบจำลองที่มีค่าเฉลี่ยเท่ากันสำหรับรุ่นที่มีวิธีการที่แตกต่างกัน REML นั้นไม่เหมาะสมสำหรับรุ่นที่มีวิธีการต่างกันควรใช้ ML

คำสั่ง "สถิติ LR นั้นเป็น asymptotically (!) χ2" ไม่เป็นความจริงในกรณีนี้ เพราะถ้าซ้อนในแล้วอยู่ในเขตแดนของ\ในกรณีนี้การไม่ได้ถือ ตัวอย่างเช่นดูที่นี่

Σ_{s}

$\Sigma_s$

Σ_{g}

$\Sigma_g$

Σ_{s}

$\Sigma_s$

Σ_{g}

$\Sigma_g$

χ^{2}

$\chi^2$

— Cliff AB

@Cliff AB นี่คือสิ่งที่อธิบายไว้ด้านล่างคำสั่งนั้นและเป็นเหตุผลที่คุณต้องใช้ REML

-4

ฉันมีคำตอบที่เกี่ยวข้องกับสามัญสำนึกมากกว่าเกี่ยวกับสถิติ หากคุณดูที่ PROC MIXED ใน SAS การประมาณค่าสามารถทำได้ด้วยวิธีการหกวิธี:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

แต่ REML เป็นค่าเริ่มต้น ทำไม? เห็นได้ชัดว่าประสบการณ์การปฏิบัติแสดงให้เห็นว่ามีประสิทธิภาพที่ดีที่สุด (เช่นโอกาสที่น้อยที่สุดของปัญหาการบรรจบกัน) ดังนั้นหากเป้าหมายของคุณสามารถทำได้ด้วย REML คุณควรใช้ REML ซึ่งตรงข้ามกับห้าวิธีอื่น ๆ

— เจมส์
แหล่งที่มา

ต้องใช้กับ 'ทฤษฎีตัวอย่างขนาดใหญ่' และความเอนเอียงของการประมาณ MLE ดูคำตอบของฉัน

"เป็นค่าเริ่มต้นใน SAS" ไม่ใช่คำตอบที่ยอมรับได้สำหรับคำถาม "ทำไม" ในไซต์นี้

— Paul

p-values สำหรับรุ่นผสมที่จัดทำโดย SAS ตามค่าเริ่มต้นไม่สามารถใช้งานได้โดยการออกแบบในไลบรารี lme4 สำหรับ R เนื่องจากไม่น่าไว้วางใจ ( stat.ethz.ch/pipermail/r-help/2006-May/094765.html ) ดังนั้น "ค่าเริ่มต้น SAS" อาจผิดพลาดได้

— ทิม