ความไม่ลงรอยกันครั้งใหญ่ในการประเมินความชันเมื่อกลุ่มได้รับการปฏิบัติแบบสุ่มและคงที่ในรูปแบบผสม


18

ฉันเข้าใจว่าเราใช้แบบจำลองเอฟเฟกต์แบบสุ่ม (หรือเอ็ฟเฟ็กต์แบบผสม) เมื่อเราเชื่อว่าพารามิเตอร์โมเดลบางตัวมีการสุ่มแตกต่างกันตามปัจจัยการจัดกลุ่ม ฉันมีความปรารถนาที่จะสร้างแบบจำลองที่การตอบสนองได้รับการทำให้เป็นมาตรฐานและเป็นศูนย์กลาง (ไม่สมบูรณ์แบบ แต่ใกล้เคียงกันมาก) กับปัจจัยการจัดกลุ่ม แต่ตัวแปรอิสระxไม่ได้ถูกปรับในทางใดทางหนึ่ง สิ่งนี้นำฉันไปสู่การทดสอบต่อไปนี้ (โดยใช้ข้อมูลที่สร้างขึ้น ) เพื่อให้แน่ใจว่าฉันจะพบผลกระทบที่ฉันกำลังมองหาถ้ามันมีอยู่จริง ฉันใช้โมเดลเอฟเฟ็กต์แบบผสมหนึ่งแบบโดยมีการสกัดแบบสุ่ม (ข้ามกลุ่มที่กำหนดโดยf) และแบบจำลองเอฟเฟกต์คงที่ที่สองโดยใช้ปัจจัย f เป็นตัวทำนายผลคงที่ ฉันใช้แพ็คเกจ R lmerสำหรับโมเดลเอฟเฟกต์ผสมและฟังก์ชั่นพื้นฐานlm()สำหรับโมเดลเอฟเฟกต์คงที่ ต่อไปนี้เป็นข้อมูลและผลลัพธ์

โปรดสังเกตว่าyโดยไม่คำนึงถึงกลุ่มจะมีค่าประมาณ 0 และxแตกต่างกันไปyตามกลุ่ม แต่จะแตกต่างกันมากในกลุ่มมากกว่าy

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

หากคุณสนใจที่จะทำงานกับข้อมูลนี่คือdput()ผลลัพธ์:

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

การติดตั้งแบบผสมเอฟเฟกต์:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

ผมทราบว่าองค์ประกอบตัดแปรปรวนอยู่ที่ประมาณ 0, และที่สำคัญกับผมไม่ได้เป็นปัจจัยบ่งชี้ที่สำคัญของxy

ต่อไปฉันพอดีกับโมเดลเอฟเฟกต์คงที่ด้วยfเป็นตัวทำนายแทนการจัดกลุ่มปัจจัยสำหรับการสกัดกั้นแบบสุ่ม:

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

ตอนนี้ผมสังเกตเห็นว่าเป็นไปตามคาดเป็นปัจจัยบ่งชี้ที่สำคัญของxy

สิ่งที่ฉันกำลังมองหาคือสัญชาตญาณเกี่ยวกับความแตกต่างนี้ ความคิดของฉันผิดตรงไหน เหตุใดฉันจึงคาดหวังว่าจะพบพารามิเตอร์ที่สำคัญสำหรับxทั้งสองโมเดล แต่เห็นได้จริงในโมเดลเอฟเฟกต์ถาวรเท่านั้น


เพียงแค่ต้องการชี้ให้เห็นอย่างรวดเร็วว่ามีบางอย่างผิดปกติกับการตั้งค่าเอฟเฟ็กต์แบบสุ่มเนื่องจากความแปรปรวนของ RE = 0 (เช่น / RE อธิบายว่าไม่มีการเปลี่ยนแปลง) ระบุว่าไม่น่าแปลกใจที่xตัวแปรไม่สำคัญ ฉันสงสัยว่าเป็นผลเดียวกัน (ค่าสัมประสิทธิ์และ SE) lm(y~x,data=data)คุณจะได้รับการทำงาน ไม่มีเวลาอีกต่อไปในการวินิจฉัย แต่ต้องการชี้เรื่องนี้ออกไป
Affine

@Affine นั่นเป็นจุดที่ดี ดังนั้นฉันคิดว่าความสนใจของฉันที่นี่คือเหตุผลว่าทำไมเอฟเฟกต์แบบสุ่มไม่จับความแปรปรวนในการสกัด หากคุณหรือใครมีความคิดเห็นในภายหลังฉันยินดีต้อนรับมัน! ขอบคุณ
ndoogan

คำตอบ:


31

มีหลายสิ่งเกิดขึ้นที่นี่ สิ่งเหล่านี้เป็นปัญหาที่น่าสนใจ แต่จะต้องใช้เวลา / พื้นที่พอสมควรในการอธิบายทั้งหมด

ครั้งแรกของทั้งหมดนี้ทั้งหมดจะกลายเป็นง่ายมากที่จะเข้าใจถ้าเราแปลงข้อมูล นี่คือพล็อตกระจายที่จุดข้อมูลเป็นสีตามกลุ่ม นอกจากนี้เรามีบรรทัดการถดถอยเฉพาะกลุ่มแยกกันสำหรับแต่ละกลุ่มรวมถึงบรรทัดการถดถอยอย่างง่าย

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

ข้อมูล

รูปแบบผลกระทบคงที่

xxxxxxxyt

xxxlm()

แบบผสม

xxxx

x

นี่คือสัมประสิทธิ์สำหรับโมเดลการถดถอยอย่างง่าย (เส้นตัวหนาประในพล็อต):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

อย่างที่คุณเห็นค่าสัมประสิทธิ์ตรงนี้เหมือนกับสิ่งที่เราได้มาในตัวแบบผสม นี่คือสิ่งที่เราคาดหวังว่าจะได้รับเนื่องจากคุณสังเกตเห็นแล้วเรามีการประมาณค่าความแปรปรวน 0 ค่าสำหรับการสกัดกั้นแบบสุ่มทำให้อัตราส่วนที่กล่าวถึงก่อนหน้า / ความสัมพันธ์ภายในคลาส 0 ดังนั้นแบบจำลองผสมในกรณีนี้จึงเป็นเพียง การประมาณการถดถอยเชิงเส้นอย่างง่ายและอย่างที่เราเห็นในพล็อตความชันตรงนี้มีความเด่นชัดน้อยกว่าความลาดชันภายในคลัสเตอร์

สิ่งนี้นำเราไปสู่ปัญหาเชิงแนวคิดขั้นสุดท้าย ...

เหตุใดความแปรปรวนของการดักจับแบบสุ่มจึงประมาณว่าเป็น 0

คำตอบสำหรับคำถามนี้มีศักยภาพที่จะกลายเป็นเทคนิคเล็กน้อยและยากลำบาก แต่ฉันจะพยายามทำให้มันเรียบง่ายและไม่มีเทคนิคเท่าที่ฉันจะทำได้ แต่มันอาจจะยังคงยืดยาวอยู่เล็กน้อย

y(หรือยิ่งถูกต้องข้อผิดพลาดของแบบจำลอง) ที่เกิดจากโครงสร้างการจัดกลุ่ม ความสัมพันธ์ภายในคลาสบอกเราว่าความคล้ายคลึงโดยเฉลี่ยเป็นข้อผิดพลาดสองอย่างที่ดึงมาจากคลัสเตอร์เดียวกันเมื่อเทียบกับความคล้ายคลึงเฉลี่ยของข้อผิดพลาดสองอย่างที่ดึงมาจากที่ใดก็ได้ในชุดข้อมูล (เช่นอาจหรือไม่อยู่ในคลัสเตอร์เดียวกัน) ความสัมพันธ์ภายในระดับบวกบอกเราว่าข้อผิดพลาดจากกลุ่มเดียวกันมีแนวโน้มที่จะคล้ายกันมากขึ้น ถ้าฉันดึงข้อผิดพลาดจากคลัสเตอร์และมีค่าสูงฉันก็คาดหวังได้ว่าข้อผิดพลาดถัดไปที่ฉันดึงออกมาจากคลัสเตอร์เดียวกันจะมีค่าสูงด้วย แม้ว่าจะค่อนข้างน้อยสามัญความสัมพันธ์ภายในชั้นเรียนก็สามารถเป็นลบ ข้อผิดพลาดสองข้อที่ดึงมาจากคลัสเตอร์เดียวกันนั้นมีความคล้ายคลึงน้อยกว่า (กล่าวคือนอกเหนือจากค่า) มากกว่าที่คาดโดยทั่วไปในชุดข้อมูลโดยรวม

ตัวแบบผสมที่เรากำลังพิจารณาอยู่นั้นไม่ได้ใช้วิธีการสหสัมพันธ์แบบอินทราคลาสในการแสดงการพึ่งพาในข้อมูล แต่มันอธิบายถึงการพึ่งพาอาศัยกันในแง่ขององค์ประกอบความแปรปรวน ทั้งหมดนี้เป็นสิ่งที่ดีตราบใดที่ความสัมพันธ์ภายในระดับเป็นบวก ในกรณีเหล่านั้นความสัมพันธ์ภายในชั้นเรียนสามารถเขียนได้อย่างง่ายดายในแง่ขององค์ประกอบความแปรปรวนโดยเฉพาะอย่างยิ่งเป็นอัตราส่วนที่กล่าวถึงก่อนหน้านี้ของความแปรปรวนสกัดกั้นแบบสุ่มกับความแปรปรวนทั้งหมด (ดูหน้า wiki เกี่ยวกับความสัมพันธ์ภายในคลาสสำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้) แต่น่าเสียดายที่โมเดลส่วนประกอบความแปรปรวนมีช่วงเวลาที่ยากลำบากในการจัดการกับสถานการณ์ที่เรามีความสัมพันธ์เชิงลบภายในระดับ ท้ายที่สุดการเขียนความสัมพันธ์ภายในคลาสในแง่ขององค์ประกอบความแปรปรวนเกี่ยวข้องกับการเขียนเป็นสัดส่วนของความแปรปรวนและสัดส่วนไม่สามารถลบได้

yyyในขณะที่ข้อผิดพลาดที่ดึงมาจากกลุ่มที่แตกต่างกันมีแนวโน้มที่จะมีความแตกต่างในระดับปานกลางมากขึ้น) ดังนั้นโมเดลผสมของคุณกำลังทำอะไรในทางปฏิบัติโมเดลผสมมักจะทำในกรณีนี้: ให้การประมาณที่สอดคล้องกับความสัมพันธ์เชิงลบ อย่างที่มันสามารถรวบรวมได้ แต่มันจะหยุดที่ขอบเขตล่าง 0 ดังนั้นเราจึงสรุปด้วยค่าความแปรปรวนตัดแบบสุ่มที่ประมาณว่า 0 ซึ่งยังไม่ดีมากนัก

แล้วเราจะทำอย่างไร

x

x

xxbxxwx

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

xwxbyxxxbt- สถิติมีขนาดใหญ่ สิ่งนี้ยังไม่น่าแปลกใจเพราะความแปรปรวนที่เหลือนั้นมีขนาดเล็กกว่ามากในโมเดลผสมนี้เนื่องจากกลุ่มผลกระทบแบบสุ่มกินความแปรปรวนจำนวนมากซึ่งรูปแบบการถดถอยแบบง่ายต้องจัดการกับ

ในที่สุดเรายังมีค่าประมาณ 0 สำหรับความแปรปรวนของการสกัดกั้นแบบสุ่มด้วยเหตุผลที่ฉันอธิบายไว้ในส่วนก่อนหน้า ฉันไม่แน่ใจว่าสิ่งที่เราสามารถทำได้อย่างน้อยที่สุดโดยไม่ต้องเปลี่ยนไปใช้ซอฟต์แวร์อื่นนอกจากlmer()นี้และฉันก็ไม่แน่ใจว่าสิ่งนี้จะยังคงส่งผลกระทบต่อการประเมินของเราในรูปแบบผสมสุดท้ายนี้ บางทีผู้ใช้รายอื่นอาจพูดสอดด้วยความคิดบางอย่างเกี่ยวกับปัญหานี้

อ้างอิง

  • Bell, A. , & Jones, K. (2014) การอธิบายเอฟเฟกต์คงที่: การสร้างเอฟเฟ็กต์แบบสุ่มของข้อมูลแบบตัดขวางและแผงข้อมูลเวลา การวิจัยและวิธีการทางรัฐศาสตร์. ไฟล์ PDF
  • Bafumi, J. , & Gelman, AE (2006) การปรับโมเดลหลายระดับให้เหมาะสมเมื่อตัวทำนายและผลกระทบของกลุ่มสัมพันธ์กัน ไฟล์ PDF

1
นี่คือการตอบสนองอย่างรอบคอบและเป็นประโยชน์ ฉันยังไม่เจอข้ออ้างอิงเหล่านี้ ชื่อของพวกเขาตีฉันเป็นต้องอ่าน ณ จุดนี้ในการสำรวจของฉัน ฉันเป็นหนี้คุณเบียร์!
ndoogan

1
การอ้างอิงของ Bell & Jones นั้นยอดเยี่ยม สิ่งหนึ่งที่ผมกำลังรอและที่คุณอาจมีเบาะแสเกี่ยวกับการไม่ว่าจะเป็นเหล่านี้ภายในระหว่างแยกพร้อมที่จะให้ขยายทั่วไปเชิงเส้นหลากหลายรูปแบบ ดูเหมือนว่าพวกเขาควรจะทำ แต่ฉันคิดว่าฉันเข้าใจว่า covariate ที่อยู่ตรงกลางในแบบจำลองการถดถอยโลจิสติกไม่เหมือนกับโมเดลโลจิสติกแบบมีเงื่อนไขซึ่งฉันใช้เป็นแบบไบนารีผลลัพธ์แบบอะนาล็อก มีคำแนะนำอะไรมั้ย?
ndoogan

1
จะไม่ปรับโมเดลแบบร่อแร่ให้เหมาะสมสำหรับความแปรปรวนเชิงลบที่lmeจำกัด ตามค่าเริ่มต้นเป็น> = 0 หรือไม่ ดูคำถามนี้และคำตอบที่เลือกเช่นปรับความสัมพันธ์แบบสมมาตรแบบผสมให้glsพอดีหรือตั้งค่าcorrelation = corCompSymm(form = ~1|f)ในlme
FairMiles

1
@FairMiles บางที ... ทำไมคุณไม่ลองและโพสต์ผลลัพธ์ในกระทู้ความคิดเห็นนี้ล่ะ?
Jake Westfall

3
ขอขอบคุณอีกครั้ง @JakeWestfall ฉันได้อ่านมากกว่านี้ประมาณ 3 ครั้งในช่วงเวลาไม่กี่เดือนและช่วยได้หลายวิธีในแต่ละครั้ง
ndoogan

3

หลังจากการไตร่ตรองอย่างมากฉันเชื่อว่าฉันได้ค้นพบคำตอบของฉันเอง ฉันเชื่อว่านักเศรษฐศาสตร์จะกำหนดตัวแปรอิสระของฉันให้เป็นปัจจัยภายนอกและสัมพันธ์กับตัวแปรอิสระและตัวแปรตาม ในกรณีนี้ตัวแปรเหล่านั้นจะถูกละเว้นหรือไม่ถูกตรวจสอบ อย่างไรก็ตามฉันสังเกตการจัดกลุ่มระหว่างที่ตัวแปรที่ละเว้นควรแตกต่างกัน

ผมเชื่อว่า econometrician จะแนะนำรูปแบบการแก้ไขผลกระทบ นั่นคือแบบจำลองที่มีหุ่นจำลองสำหรับทุกระดับการจัดกลุ่ม (หรือข้อกำหนดที่เทียบเท่าที่กำหนดเงื่อนไขแบบจำลองที่ไม่จำเป็นต้องใช้การจัดกลุ่มแบบจำลองจำนวนมาก) ในกรณีนี้ ด้วยโมเดลเอฟเฟกต์คงที่ความหวังคือตัวแปรที่ไม่มีการควบคุมและไม่แปรผันตามเวลาสามารถควบคุมได้โดยการปรับสภาพในรูปแบบกลุ่ม (หรือข้ามบุคคล) ที่จริงแบบจำลองที่สองในคำถามของฉันนั้นเป็นแบบจำลองเอฟเฟกต์ที่แน่นอน

ฉันยินดีรับฟังความคิดเห็นที่จะทำให้สถานการณ์นี้สว่างขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.