สิ่งที่จะเป็นภาพตัวอย่างสำหรับโมเดลผสมเชิงเส้น?


17

สมมติว่าคุณอยู่ในห้องสมุดของแผนกสถิติของคุณและคุณเจอหนังสือที่มีรูปภาพต่อไปนี้ในหน้าแรก

ป้อนคำอธิบายรูปภาพที่นี่

คุณอาจจะคิดว่านี่เป็นหนังสือเกี่ยวกับเรื่องการถดถอยเชิงเส้น

ภาพที่จะทำให้คุณคิดเกี่ยวกับโมเดลเชิงเส้นผสมเป็นอย่างไร

คำตอบ:


12

สำหรับการพูดคุยฉันได้ใช้รูปภาพต่อไปนี้ซึ่งยึดตามsleepstudyชุดข้อมูลจากแพ็คเกจlme4 แนวคิดก็คือเพื่อแสดงให้เห็นถึงความแตกต่างระหว่างการถดถอยแบบอิสระจากข้อมูลเฉพาะเรื่อง (สีเทา) กับการทำนายจากแบบจำลองผลกระทบแบบสุ่มโดยเฉพาะอย่างยิ่งที่ (1) ค่าที่ทำนายจากแบบจำลองผลกระทบแบบสุ่มคือตัวประมาณการหดตัว ความชันทั่วไปที่มีรูปแบบการสกัดกั้นแบบสุ่มเท่านั้น (สีส้ม) การแจกแจงของการสกัดกั้นเรื่องจะแสดงเป็นการประมาณความหนาแน่นของเคอร์เนลบนแกน y ( รหัส R )

ป้อนคำอธิบายรูปภาพที่นี่
(เส้นโค้งความหนาแน่นขยายออกไปนอกช่วงของค่าที่สังเกตได้เนื่องจากมีการสังเกตค่อนข้างน้อย)

กราฟิก 'ธรรมดา' มากขึ้นอาจเป็นกราฟิกถัดไปซึ่งมาจาก Doug Bates (มีอยู่ในไซต์ R-forge สำหรับ lme4เช่น4Longitudinal.R ) ซึ่งเราสามารถเพิ่มข้อมูลส่วนบุคคลในแต่ละแผง

ป้อนคำอธิบายรูปภาพที่นี่


+1 สิ่งที่ดี! ฉันคิดว่าพล็อตแรกของคุณดีมากในระดับแนวคิด ความคิดเห็นเดียวของฉันคือว่ามันต้องการคำอธิบายที่มีความหมายมากกว่าพล็อต "ไร้เดียงสา" มาตรฐานและหากผู้ชมไม่ถึงความเร็วด้วยแนวคิดของโมเดล LME และข้อมูลระยะยาวมันอาจพลาดประเด็นของพล็อต ฉันจะจำมันได้อย่างแน่นอนสำหรับสถิติการพูดคุยที่มั่นคง (ฉันได้เห็นพล็อตที่สองใน "lme4 book" สองสามครั้งแล้วฉันก็ไม่ได้ประทับใจจนเกินไปและตอนนี้ฉันก็ไม่ประทับใจเหมือนกัน)
usεr11852พูดว่า Reinstate Monic

@chl: ขอบคุณ! ฉันจะเลือกระหว่างข้อเสนอ ในขณะเดียวกัน +1
ocram

@ user11852 ความเข้าใจของฉันเกี่ยวกับโมเดล RI คือการประมาณ OLS นั้นถูกต้อง แต่ข้อผิดพลาดมาตรฐานของพวกเขาไม่ได้ (เพราะขาดความเป็นอิสระ) ดังนั้นการคาดการณ์ของแต่ละคนจะไม่ถูกต้องเช่นกัน โดยปกติแล้วฉันจะแสดงบรรทัดการถดถอยโดยรวมโดยถือว่าการสังเกตเป็นอิสระ จากนั้นทฤษฎีบอกเราว่าการรวมโหมดเงื่อนไขของเอฟเฟกต์แบบสุ่มและการประมาณของเอฟเฟกต์คงที่ทำให้เกิดโหมดเงื่อนไขของค่าสัมประสิทธิ์ภายในเรื่องและจะมี skrinkage เล็กน้อยเมื่อหน่วยสถิติแตกต่างกันหรือเมื่อการวัดมีความแม่นยำหรือ ตัวอย่างขนาดใหญ่
chl

Y|γ~ยังไม่มีข้อความ(Xβ+Zγ,σ2ผม)Y~ยังไม่มีข้อความ(Xβ,ZDZT+σ2ผม)

ลิงก์ไปยังรหัส R เพื่อสร้างรูปภาพใช้งานไม่ได้ ฉันสนใจที่จะวาดการแจกแจงแนวตั้งในรูป
Niels Hameleers

8

ดังนั้นสิ่งที่ไม่ "หรูหรามาก" แต่แสดงการสกัดกั้นแบบสุ่มและความลาดชันด้วย R (ฉันเดาว่ามันจะเย็นกว่านี้ถ้าแสดงสมการจริงด้วย) ป้อนคำอธิบายรูปภาพที่นี่

N =100; set.seed(123);


x1 = runif(N)*3; readings1 <- 2*x1 + 1.0 + rnorm(N)*.99;
x2 = runif(N)*3; readings2 <- 3*x2 + 1.5 + rnorm(N)*.99;
x3 = runif(N)*3; readings3 <- 4*x3 + 2.0 + rnorm(N)*.99;
x4 = runif(N)*3; readings4 <- 5*x4 + 2.5 + rnorm(N)*.99;
x5 = runif(N)*3; readings5 <- 6*x5 + 3.0 + rnorm(N)*.99;

X = c(x1,x2,x3,x4,x5);
Y = c(readings1,readings2,readings3,readings4,readings5)
Grouping  = c(rep(1,N),rep(2,N),rep(3,N),rep(4,N),rep(5,N))

library(lme4);
LMERFIT <- lmer(Y ~ 1+ X+ (X|Grouping))

RIaS <-unlist( ranef(LMERFIT)) #Random Intercepts and Slopes
FixedEff <- fixef(LMERFIT)    # Fixed Intercept and Slope

png('SampleLMERFIT_withRandomSlopes_and_Intercepts.png', width=800,height=450,units="px" )
par(mfrow=c(1,2))
plot(X,Y,xlab="x",ylab="readings")
plot(x1,readings1, xlim=c(0,3), ylim=c(min(Y)-1,max(Y)+1), pch=16,xlab="x",ylab="readings" )
points(x2,readings2, col='red', pch=16)
points(x3,readings3, col='green', pch=16)
points(x4,readings4, col='blue', pch=16)
points(x5,readings5, col='orange', pch=16)
abline(v=(seq(-1,4 ,1)), col="lightgray", lty="dotted");        
abline(h=(seq( -1,25 ,1)), col="lightgray", lty="dotted")   

lines(x1,FixedEff[1]+ (RIaS[6] + FixedEff[2])* x1+ RIaS[1], col='black')
lines(x2,FixedEff[1]+ (RIaS[7] + FixedEff[2])* x2+ RIaS[2], col='red')
lines(x3,FixedEff[1]+ (RIaS[8] + FixedEff[2])* x3+ RIaS[3], col='green')
lines(x4,FixedEff[1]+ (RIaS[9] + FixedEff[2])* x4+ RIaS[4], col='blue')
lines(x5,FixedEff[1]+ (RIaS[10]+ FixedEff[2])* x5+ RIaS[5], col='orange') 
legend(0, 24, c("Group1","Group2","Group3","Group4","Group5" ), lty=c(1,1), col=c('black','red', 'green','blue','orange'))
dev.off()

ขอบคุณ! ฉันรออีกสักครู่เพื่อหาคำตอบใหม่ที่อาจเกิดขึ้น ... แต่ฉันอาจสร้างคำตอบนี้
ocram

ฉันค่อนข้างสับสนกับรูปร่างของคุณเพราะรูปแบบย่อยที่ถูกต้องมองมาที่ฉันราวกับว่าเส้นการถดถอยแยกกันนั้นเหมาะสมกับแต่ละกลุ่ม จุดรวมที่พอดีของโมเดลแบบผสมไม่ควรแตกต่างจากความเหมาะสมแบบอิสระต่อกลุ่มหรือไม่ บางทีพวกเขาอาจจะเป็น แต่ในตัวอย่างนี้มันเป็นเรื่องยากที่จะสังเกตเห็นหรือฉันขาดอะไรบางอย่าง?
อะมีบาพูดว่า Reinstate Monica

2
ใช่ค่าสัมประสิทธิ์ที่แตกต่างกัน Nope; การถดถอยที่แยกต่างหากไม่เหมาะสำหรับแต่ละกลุ่ม เงื่อนไขที่เหมาะสมจะแสดงขึ้น ในความสมดุลอย่างสมบูรณ์แบบการออกแบบแบบ homoskedastic เนื่องจากความแตกต่างนี้จะสังเกตเห็นได้ยากตัวอย่างเช่นการสกัดกั้นตามเงื่อนไขของกลุ่ม 5 คือ 2.96 ในขณะที่การสกัดกั้นแบบอิสระต่อกลุ่มคือ 3.00 มันเป็นโครงสร้างความแปรปรวนร่วมข้อผิดพลาดที่คุณกำลังเปลี่ยนแปลง ตรวจสอบคำตอบของไคด้วยเช่นกันมันมีกลุ่มมากกว่า แต่ในบางกรณีความพอดีก็คือ "แตกต่างกันมาก" ด้วยสายตา
usεr11852พูดว่า Reinstate Monic

6

ไม่ใช่งานของฉัน

กราฟนี้นำมาจากเอกสาร Matlab ของnlmefitทำให้ฉันรู้สึกเหมือนเป็นตัวอย่างของแนวคิดของการสกัดกั้นแบบสุ่มและความลาดชันอย่างเห็นได้ชัดเลยทีเดียว อาจเป็นสิ่งที่แสดงกลุ่มของ heteroskedasticity ในส่วนที่เหลือของพล็อต OLS จะเป็นมาตรฐานสวย แต่ฉันจะไม่ให้ "ทางออก"


ขอบคุณสำหรับคำแนะนำของคุณ แม้ว่ามันจะดูเหมือนกับการถดถอยโลจิสติกแบบผสม แต่ฉันคิดว่าฉันสามารถปรับใช้ได้อย่างง่ายดาย ฉันรอคำแนะนำเพิ่มเติม ในขณะเดียวกัน +1 ขอบคุณอีกครั้ง.
ocram

ดูเหมือนว่าการถดถอยโลจิสติกแบบผสมส่วนใหญ่เป็นเพราะมันเป็นหนึ่ง ... :) มันเป็นพล็อตแรกที่โผล่เข้ามาในใจของฉันจริง ๆ ! ฉันจะให้บางสิ่งบางอย่างอย่างหมดจด R-ish ในคำตอบที่สอง
usεr11852พูดว่า Reinstate Monic
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.