ทำไมจึงต้องใช้ REML (แทน ML) เพื่อเลือกระหว่างรุ่น var-covar ที่ซ้อนกัน?


16

คำอธิบายต่าง ๆ เกี่ยวกับการเลือกแบบจำลองที่มีผลต่อการสุ่มของตัวแบบเชิงเส้นผสมแนะนำให้ใช้ REML ฉันรู้ความแตกต่างระหว่าง REML และ ML ในบางระดับ แต่ฉันไม่เข้าใจว่าทำไมควรใช้ REML เพราะ ML นั้นมีความเอนเอียง ตัวอย่างเช่นการใช้ LRT กับพารามิเตอร์ความแปรปรวนของแบบจำลองการแจกแจงแบบปกติโดยใช้ ML นั้นเป็นความผิดหรือไม่? ฉันไม่เข้าใจว่าทำไมการมีความเป็นกลางจึงสำคัญกว่าการเป็น ML ในการเลือกรุ่น ฉันคิดว่าคำตอบที่ดีที่สุดต้องเป็น "เพราะการเลือกแบบจำลองทำงานได้ดีกับ REML มากกว่ากับ ML" แต่ฉันอยากรู้มากกว่านั้นเล็กน้อย ฉันไม่ได้อ่าน derivations ของ LRT และ AIC (ฉันไม่ดีพอที่จะเข้าใจพวกเขาอย่างละเอียด) แต่ถ้าใช้ REML อย่างชัดเจนในการอ้างอิงเพียงแค่รู้ว่ามันจะเพียงพอจริง ๆ (เช่น

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value

1
เกี่ยวกับ REML และ AIC คุณควรดูคำถามนี้
Elvis

คำตอบ:


13

คำตอบสั้น ๆ : REML คือ ML ดังนั้นการทดสอบตาม REML นั้นถูกต้องแล้ว เนื่องจากการประมาณค่าพารามิเตอร์ความแปรปรวนกับ REML นั้นดีกว่าจึงเป็นเรื่องปกติที่จะใช้

ทำไมเป็น REML ML พิจารณาแบบจำลอง ด้วย ,และเป็นเวกเตอร์ของเอฟเฟกต์คงที่เป็นเวกเตอร์ของเอฟเฟกต์แบบสุ่มและI_n) โอกาสที่ถูก จำกัด สามารถรับได้โดยพิจารณาความแตกต่างเพื่อ "ลบ" ผลกระทบคงที่ แม่นยำยิ่งขึ้นให้เช่นและ (นั่นคือคอลัมน์ของเอ็กซ์R n × P Z R n × Q β Rพียู~ N ( 0 , τ ฉันQ ) E ~ N ( 0 , σ 2 ฉันn ) n - พีC R ( n - p ) × n C X

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)eN(0,σ2In)npCR(np)×nC C = I n - p C X C Y = C Z u + ϵ ϵ N ( 0 , σ 2 I n - p ) τ , σ 2 C YCX=0CC=InpCเป็นพื้นฐาน orthonormal ของเวกเตอร์สเปซ orthognal กับพื้นที่ที่สร้างโดยคอลัมน์ของ ); แล้วกับและความเป็นไปได้สำหรับรับเป็นโอกาสที่ จำกัดX
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY

คำตอบที่ดี (+1) ฉันถูกต้องหรือไม่ที่จะบอกว่าเมทริกซ์ขึ้นอยู่กับแบบจำลองสำหรับค่าเฉลี่ย ดังนั้นคุณสามารถเปรียบเทียบค่าประมาณการ REML สำหรับเมทริกซ์เดียวกันได้หรือไม่ CCC

ใช่ขึ้นอยู่กับ (ฉันจะแก้ไขคำตอบภายในหนึ่งนาทีเพื่อให้ชัดเจน) ดังนั้นโมเดลที่ซ้อนกันของคุณต้องมีตัวแปรเดียวกันกับเอฟเฟกต์คงที่ XCX
Elvis

REML คือไม่ ML! ML ถูกกำหนดให้ไม่ซ้ำกันสำหรับรูปแบบความน่าจะเป็นที่ได้รับ แต่ REML จะขึ้นอยู่กับการแก้ไขผลกระทบ parameterization ดูเช่นความคิดเห็นนี้โดยดั๊กเบตส์ (เช่นเดียวกับคนในประวัติศาสตร์มากมายในรุ่น R-SIG- ผสม)
Livius

1
@Livius ฉันคิดว่าคำตอบของฉันระบุไว้อย่างชัดเจนว่ามีการสร้างโอกาส จำกัด มันเป็นความน่าจะเป็นไม่ใช่ความเป็นไปได้ที่สังเกตจากในแบบจำลองที่เขียนในสมการที่แสดงครั้งแรก แต่ให้เวกเตอร์ที่ฉายในแบบจำลองที่เขียนในสมการที่สองแสดง REML คือ ML ที่ได้จากโอกาสนี้ C YYCY
Elvis

2
ฉันคิดว่านั่นเป็นจุดที่การประท้วงของ DBates ในประเด็นนี้: มันเป็นรูปแบบที่แตกต่างกันและมันก็เป็นรูปแบบที่การเปรียบเทียบนั้นยากเพราะรูปแบบและการแปรของพารามิเตอร์เป็นพันกัน ดังนั้นคุณไม่ได้คำนวณML สำหรับรูปแบบเดิมของคุณ แต่ML สำหรับรูปแบบที่แตกต่างกันที่เกิดขึ้นจาก parameterization โดยเฉพาะอย่างยิ่งของรูปแบบเดิมของคุณ ดังนั้นโมเดลที่ติดตั้ง REML ที่มีโครงสร้างเอฟเฟกต์คงที่จึงไม่ใช่โมเดลที่ซ้อนกันอีกต่อไป (ดังที่คุณกล่าวถึงข้างต้น) แต่รุ่นที่ติดตั้งกับ ML นั้นยังคงซ้อนกันอยู่เพราะคุณจะเพิ่มโอกาสสูงสุดให้กับรุ่นที่ระบุ
Livius

9

การทดสอบอัตราส่วนความน่าจะเป็นเป็นการทดสอบสมมติฐานทางสถิติที่ขึ้นอยู่กับอัตราส่วนของความน่าจะเป็นสองอย่าง คุณสมบัติของพวกมันเชื่อมโยงกับการประมาณความน่าจะเป็นสูงสุด (MLE) (ดูเช่นการประมาณความน่าจะเป็นสูงสุด (MLE) ในเงื่อนไขของคนธรรมดา )

ในกรณีของคุณ (ดูคำถาม) คุณต้องการ '' เลือก '' ในสองแบบจำลอง var-covar ที่ซ้อนกันสมมติว่าคุณต้องการเลือกระหว่างแบบจำลองที่ var-covar คือและแบบจำลองที่ var-covar คือโดยที่ตัวที่สอง (โมเดลง่าย) เป็นกรณีพิเศษของตัวแรก (ตัวแบบทั่วไป) Σ sΣgΣs

การทดสอบจะขึ้นอยู่กับอัตราส่วนความน่าจะเป็นโดยที่และเป็นตัวประมาณค่าความน่าจะเป็นสูงสุดΣ s ΣกรัมLR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

สถิติคือasymptotically (!) 2 LR χ2

การประมาณความเป็นไปได้สูงสุดเป็นที่ทราบกันว่ามีความสอดคล้องกันอย่างไรก็ตามในหลาย ๆ กรณีพวกเขามีอคติ นี่เป็นกรณีสำหรับตัวประมาณ MLE สำหรับความแปรปรวนและมันสามารถแสดงให้เห็นว่าพวกเขามีความเอนเอียง นี่เป็นเพราะพวกเขาคำนวณโดยใช้ค่าเฉลี่ยที่ได้มาจากข้อมูลเช่นการแพร่กระจายรอบ 'ค่าเฉลี่ยโดยประมาณ' นี้มีขนาดเล็กกว่าการแพร่กระจายรอบค่าเฉลี่ยที่แท้จริง (ดูตัวอย่างเช่นคำอธิบายที่เข้าใจง่ายสำหรับการหารด้วยเมื่อคำนวณค่าเบี่ยงเบนมาตรฐาน ? )Σ^sn-1Σ^gn1

สถิติด้านบนคือในตัวอย่างขนาดใหญ่นี่เป็นเพียงเพราะความจริงที่ว่าในตัวอย่างขนาดใหญ่และมาบรรจบกับค่าที่แท้จริงของพวกเขา (MLE สอดคล้องกัน ) (หมายเหตุ: ในลิงก์ด้านบนสำหรับตัวอย่างที่มีขนาดใหญ่มากการหารด้วย n หรือโดย (n-1) จะไม่ทำให้เกิดความแตกต่าง)χ 2 Σ s ΣกรัมLRχ2Σ^sΣ^g

สำหรับตัวอย่างขนาดเล็กการประมาณค่า MLE ของและจะมีอคติดังนั้นการกระจายของจะเบี่ยงเบนไปจากในขณะที่การประมาณการ REML จะให้ค่าประมาณที่เป็นกลางสำหรับและดังนั้นถ้าคุณใช้สำหรับการเลือกของรูปแบบ var-covar ที่ REML ประมาณการแล้วจะสำหรับตัวอย่างที่มีขนาดเล็กเป็นห้วงที่ดีขึ้นโดย 2Σ^sΣ^gLRχ2ΣsΣgLRχ2

โปรดทราบว่าควรใช้ REML เพื่อเลือกระหว่างโครงสร้าง var-covar ที่ซ้อนกันของแบบจำลองที่มีค่าเฉลี่ยเท่ากันสำหรับรุ่นที่มีวิธีการที่แตกต่างกัน REML นั้นไม่เหมาะสมสำหรับรุ่นที่มีวิธีการต่างกันควรใช้ ML


คำสั่ง "สถิติ LR นั้นเป็น asymptotically (!) χ2" ไม่เป็นความจริงในกรณีนี้ เพราะถ้าซ้อนในแล้วอยู่ในเขตแดนของ\ในกรณีนี้การไม่ได้ถือ ตัวอย่างเช่นดูที่นี่ΣsΣgΣsΣgχ2
Cliff AB

@Cliff AB นี่คือสิ่งที่อธิบายไว้ด้านล่างคำสั่งนั้นและเป็นเหตุผลที่คุณต้องใช้ REML

-4

ฉันมีคำตอบที่เกี่ยวข้องกับสามัญสำนึกมากกว่าเกี่ยวกับสถิติ หากคุณดูที่ PROC MIXED ใน SAS การประมาณค่าสามารถทำได้ด้วยวิธีการหกวิธี:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

แต่ REML เป็นค่าเริ่มต้น ทำไม? เห็นได้ชัดว่าประสบการณ์การปฏิบัติแสดงให้เห็นว่ามีประสิทธิภาพที่ดีที่สุด (เช่นโอกาสที่น้อยที่สุดของปัญหาการบรรจบกัน) ดังนั้นหากเป้าหมายของคุณสามารถทำได้ด้วย REML คุณควรใช้ REML ซึ่งตรงข้ามกับห้าวิธีอื่น ๆ


2
ต้องใช้กับ 'ทฤษฎีตัวอย่างขนาดใหญ่' และความเอนเอียงของการประมาณ MLE ดูคำตอบของฉัน

1
"เป็นค่าเริ่มต้นใน SAS" ไม่ใช่คำตอบที่ยอมรับได้สำหรับคำถาม "ทำไม" ในไซต์นี้
Paul

p-values ​​สำหรับรุ่นผสมที่จัดทำโดย SAS ตามค่าเริ่มต้นไม่สามารถใช้งานได้โดยการออกแบบในไลบรารี lme4 สำหรับ R เนื่องจากไม่น่าไว้วางใจ ( stat.ethz.ch/pipermail/r-help/2006-May/094765.html ) ดังนั้น "ค่าเริ่มต้น SAS" อาจผิดพลาดได้
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.