เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R


34

เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน

ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย:

Call:
glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial")

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.734  -0.847  -0.847   0.709   1.549  

Coefficients:
                             Estimate Std. Error z value Pr(>|z|)    
(Intercept)                   -0.8408     0.2551  -3.296  0.00098 ***
as.factor(dataset$dich.age)1   2.0935     0.5285   3.961 7.46e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 136.66  on 99  degrees of freedom
Residual deviance: 117.96  on 98  degrees of freedom
AIC: 121.96

Number of Fisher Scoring iterations: 4

อย่างไรก็ตามเมื่อฉันคำนวณช่วงความเชื่อมั่นของพารามิเตอร์ฉันได้รับช่วงเวลาที่แตกต่างจากช่วงเวลาที่กำหนดในข้อความ:

> exp(confint(model))
Waiting for profiling to be done...
                                 2.5 %     97.5 %
(Intercept)                  0.2566283  0.7013384
as.factor(dataset$dich.age)1 3.0293727 24.7013080

Hosmer & Lemeshow แนะนำสูตรต่อไปนี้:

อี[β^1±Z1-α/2×SE^(β^1)]

และพวกเขาคำนวณช่วงความมั่นใจสำหรับas.factor(dataset$dich.age)1การเป็น (2.9, 22.9)

ดูเหมือนจะตรงไปตรงมาที่จะทำใน R:

# upper CI for beta
exp(summary(model)$coefficients[2,1]+1.96*summary(model)$coefficients[2,2])
# lower CI for beta
exp(summary(model)$coefficients[2,1]-1.96*summary(model)$coefficients[2,2])

ให้คำตอบเดียวกับหนังสือ

อย่างไรก็ตามความคิดใด ๆ เกี่ยวกับสาเหตุที่confint()ดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกันอย่างไร ฉันเห็นตัวอย่างของผู้ใช้จำนวนconfint()มาก


1
คุณจะเพิ่มการอ้างอิงวรรณกรรมที่แน่นอนสำหรับ Hosmer & Lemeshow หรือไม่? ฉันกำลังมองหาคำแนะนำในลูกศิษย์และหนังสือมาระยะหนึ่งแล้ว แต่ยังไม่พบ
DavidR

คำตอบ:


36

หลังจากดึงข้อมูลจากเว็บไซต์ประกอบแล้วนี่คือวิธีที่ฉันจะทำ:

chdage <- read.table("chdage.dat", header=F, col.names=c("id","age","chd"))
chdage$aged <- ifelse(chdage$age>=55, 1, 0)
mod.lr <- glm(chd ~ aged, data=chdage, family=binomial)
summary(mod.lr)

CIs 95% ตามความน่าจะเป็นของโปรไฟล์จะได้รับด้วย

require(MASS)
exp(confint(mod.lr))

นี่มักจะเป็นค่าเริ่มต้นหากMASSมีการโหลดแพคเกจโดยอัตโนมัติ ในกรณีนี้ฉันได้รับ

                2.5 %     97.5 %
(Intercept) 0.2566283  0.7013384
aged        3.0293727 24.7013080

ตอนนี้ถ้าฉันต้องการเปรียบเทียบกับ 95% Wald CIs (ขึ้นอยู่กับค่านิยมเชิงเส้นกำกับ) เหมือนกับที่คุณคำนวณด้วยมือฉันจะใช้confint.default()แทน อัตราผลตอบแทนนี้

                2.5 %     97.5 %
(Intercept) 0.2616579  0.7111663
aged        2.8795652 22.8614705

Wald CIs นั้นเป็นสิ่งที่ดีในสถานการณ์ส่วนใหญ่แม้ว่าความเป็นไปได้ที่อิงกับโปรไฟล์อาจมีประโยชน์กับกลยุทธ์การสุ่มตัวอย่างที่ซับซ้อน หากคุณต้องการที่จะเข้าใจความคิดของวิธีที่พวกเขาทำงานที่นี่เป็นภาพรวมคร่าวๆของหลักการหลัก: ช่วงความเชื่อมั่นโดยวิธีการรายละเอียดความเป็นไปได้กับการใช้งานในด้านระบาดวิทยาทางสัตวแพทย์ นอกจากนี้คุณยังสามารถดูหนังสือ Venables และ MASS ของ Ripley §8.4, pp. 220-221


25

การติดตาม: ช่วงความเชื่อมั่นของโปรไฟล์มีความน่าเชื่อถือมากกว่า (การเลือกทางลัดที่เหมาะสมสำหรับความเป็นไปได้นั้นจะเกี่ยวข้องกับการสันนิษฐาน (ตัวอย่างขนาดใหญ่) แบบอะซิมโทติค แต่นี่เป็นข้อสันนิษฐานที่อ่อนแอกว่า เท่าที่ฉันรู้ไม่มีการโต้แย้งใด ๆ สำหรับสถิติ Wald ในช่วงความเชื่อมั่นของโปรไฟล์ยกเว้นว่าสถิติของ Wald นั้นเร็วกว่ามากในการคำนวณและอาจจะ "ดีพอ" ในหลาย ๆ สถานการณ์ (แต่บางครั้งก็ออก: เงยหน้า Hauck- ผลของ Donner)


2
ขอบคุณสำหรับสิ่งนี้และสำหรับการแนะนำฉันค้นหาเอฟเฟกต์ของ Hauck-Donner ผลที่ได้ไม่ได้รับการรักษามากในตำราเรียน แต่ดูเหมือนว่าสำคัญมาก!
แอนดรู

18

ฉันเชื่อว่าถ้าคุณดูในไฟล์ช่วยเหลือสำหรับ confint () คุณจะพบว่าช่วงความมั่นใจที่กำลังสร้างนั้นเป็นช่วง "โปรไฟล์" แทนที่จะเป็นช่วงความมั่นใจ Wald (สูตรของคุณจาก HL)


5
อ่า นั่นเป็นคำตอบของคำถาม อย่างไรก็ตามมันจะนำไปสู่อีกอันหนึ่ง - อันไหนดีกว่า?
Andrew
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.