Logistic Regression: วิธีการรับแบบจำลองอิ่มตัว


17

ฉันเพิ่งอ่านเกี่ยวกับมาตรการเบี่ยงเบนสำหรับการถดถอยโลจิสติก อย่างไรก็ตามส่วนที่เรียกว่าแบบจำลองแบบอิ่มตัวนั้นไม่ชัดเจนสำหรับฉัน

ฉันทำการค้นหาด้วย Google อย่างกว้างขวาง แต่ไม่มีผลลัพธ์ใดที่ตอบคำถามของฉัน จนถึงตอนนี้ฉันพบว่าแบบจำลองอิ่มตัวมีพารามิเตอร์สำหรับการสังเกตแต่ละครั้งซึ่งเป็นผลให้ผลลัพธ์ในแบบที่สมบูรณ์แบบ ชัดเจนสำหรับฉัน แต่: ยิ่งไปกว่านั้นค่าติดตั้ง (ของโมเดลอิ่มตัว) จะเท่ากับค่าที่สังเกตได้

ตั้งแต่จากความรู้ของฉันถดถอยโลจิสติถูกนำมาใช้สำหรับการจำแนกประเภทข้อมูลที่สังเกตให้เป็นตัวแปรที่มีป้ายชื่อเพิ่มเติม\} อย่างไรก็ตามมาตรการเบี่ยงเบนใช้ความน่าจะเป็น แต่ไม่ใช่ฉลากจริง หนึ่งนำไปใช้คำนวณความน่าจะเป็นที่คาดการณ์ของการถดถอยโลจิสติกเมื่อเทียบกับความน่าจะเป็นที่สังเกต อย่างไรก็ตามเนื่องจากมีเพียงป้ายกำกับแทนที่จะเป็นความน่าจะเป็นฉันจึงสับสนว่าจะสร้างแบบจำลองที่อิ่มตัวจากป้ายกำกับเหล่านี้ได้อย่างไรY{0,1}

คำตอบ:


17

สำหรับแต่ละความน่าจะเป็นที่ติดตั้งจากแบบจำลองอิ่มตัวจะเหมือนกับไม่ว่าจะเป็นศูนย์หรือหนึ่ง ตามที่อธิบายไว้ที่นี่น่าจะเป็นของรุ่นอิ่มตัวคือ1ดังนั้นความเบี่ยงเบนของโมเดลดังกล่าวจะเป็น , ที่ df นี่คือตัวอย่างจาก R:YผมYผม1-2เข้าสู่ระบบ(1/1)=00

y = c(1,1,1,0,0,0)
a <- factor(1:length(y)) 
fit <- glm(y~a,family=binomial) 
summary(fit)

Deviance Residuals: 
 0  0  0  0  0  0

Null deviance: 8.3178e+00  on 5  degrees of freedom

Residual deviance: 2.5720e-10  on 0  degrees of freedom

แบบจำลองที่อิ่มตัวมีพารามิเตอร์เสมอโดยที่คือขนาดตัวอย่าง นั่นเป็นสาเหตุที่ค่าเบี่ยงเบนโมฆะเป็นค่าว่างเสมอ df เนื่องจากโมเดลโมฆะมีจุดตัดเท่านั้น เช่นถ้าฉันเพิ่มหนึ่งซ้ำสำหรับแต่ละระดับหกระดับฉันจะได้รับสิ่งต่อไปนี้:nn(n-1)

> k2
 [1] 1 2 3 4 5 6 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y2
 [1] 1 1 1 0 0 0 1 1 1 0 0 0
> fit3 = glm(y2 ~ k2, family = binomial)
> summary(fit3)    

    Null deviance: 1.6636e+01  on 11  degrees of freedom
    Residual deviance: 5.1440e-10  on  6  degrees of freedom

ที่จริงแล้วปรากฎว่าใน R สิ่งที่แบบอิ่มตัวนั้นขึ้นอยู่กับรูปแบบของการป้อนข้อมูลแม้ว่าข้อมูลจะเหมือนกันทุกประการซึ่งไม่ค่อยดีนัก โดยเฉพาะอย่างยิ่งในตัวอย่างด้านบนมีข้อสังเกต 12 ข้อและระดับปัจจัย 6 ระดับดังนั้นแบบจำลองอิ่มตัวควรมีพารามิเตอร์ 6 ตัวไม่ใช่ 12 โดยทั่วไปรูปแบบอิ่มตัวถูกกำหนดเป็นหนึ่งโดยที่จำนวนพารามิเตอร์เท่ากับจำนวนของ รูปแบบ covariate ที่แตกต่าง ฉันไม่รู้ว่าทำไมรหัส R "ยอมรับ" ที่ปัจจัย k2 มี 6 ระดับที่แตกต่างกัน แต่รุ่นที่อิ่มตัวนั้นมีพารามิเตอร์ 12 ตัว

ตอนนี้ถ้าเราใช้ข้อมูลเดียวกันทั้งหมดในแบบฟอร์ม "ทวินาม" เราจะได้คำตอบที่ถูกต้อง:

y_yes = 2 * c(1,1,1,0,0,0)
y_no = 2 * c(0,0,0,1,1,1)
x = factor(c(1:6))

> x
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> y_yes
[1] 2 2 2 0 0 0
> y_no
[1] 0 0 0 2 2 2

modelBinomialForm = glm(cbind(y_yes, y_no) ~ x, family=binomial)

Deviance Residuals: 
[1]  0  0  0  0  0  0

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)  2.490e+01  1.096e+05       0        1
x2           1.375e-08  1.550e+05       0        1
x3           1.355e-08  1.550e+05       0        1
x4          -4.980e+01  1.550e+05       0        1
x5          -4.980e+01  1.550e+05       0        1
x6          -4.980e+01  1.550e+05       0        1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1.6636e+01  on 5  degrees of freedom
Residual deviance: 3.6749e-10  on 0  degrees of freedom

ตอนนี้เราจะเห็นว่าแบบจำลองที่อิ่มตัวมี 6 พารามิเตอร์และมันสอดคล้องกับแบบจำลองที่ติดตั้ง ดังนั้นค่าเบี่ยงเบนว่างจะเปิด (6 - 1) = 5 df และค่าเบี่ยงเบนเหลืออยู่คือ (6-6) = 0 df


Yผม00
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.