การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit


24

ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก

  1. พลังการทำนาย:

    รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989)

  2. สถิติความถูกต้อง

    การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่

    ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ
    อยู่แล้ว:

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

และพลังงานที่คาดการณ์มีดังนี้ MaFadden คือ 0.4004 และค่าระหว่าง 0.2 ~ 0.4 ควรนำเสนอแบบจำลองที่ดีมาก (Louviere et al (2000), Domenich และ McFadden (1975):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

และสถิติความดีของพอดี:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

ตามความเข้าใจของฉัน GOF กำลังทดสอบสมมติฐานว่างและทางเลือกต่อไปนี้:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

เนื่องจากแบบจำลองของฉันเพิ่มการโต้ตอบแบบไม่ใช่เชิงเส้นอยู่แล้วและค่า p แสดง H0 ควรถูกปฏิเสธดังนั้นฉันจึงสรุปได้ว่าแบบจำลองของฉันต้องการการโต้ตอบไม่ใช่แบบเส้นตรงแน่นอน หวังว่าการตีความของฉันจะถูกต้องและขอบคุณสำหรับคำแนะนำใด ๆ ล่วงหน้าขอบคุณ



2
ดีกว่าที่จะดูตารางพื้นฐานกว่าค่า p สำหรับการทดสอบ HL และในแปลงของส่วนที่เหลือจากแบบจำลองของคุณ นี่จะแสดงว่าปัญหาอยู่ที่ใด
ความน่าจะเป็นทางการ

คำตอบ:


26

มีอยู่หลายประเด็นที่จะอยู่

  • R2วัดด้วยตนเองไม่เคยวัดความดีที่เหมาะสม พวกเขาวัดการเลือกปฏิบัติที่คาดการณ์ส่วนใหญ่ ความพอดีที่ดีมาจากการเปรียบเทียบกับจากรุ่นที่สมบูรณ์ยิ่งขึ้นR2R2
  • การทดสอบ Hosmer-Lemeshow มีไว้สำหรับข้อผิดพลาดในการสอบเทียบโดยรวมไม่ใช่เพื่อการขาดความพอดีเช่นเอฟเฟกต์กำลังสอง มันไม่ได้คำนึงถึงการ overfitting อย่างถูกต้องเป็นทางเลือกของถังขยะและวิธีการคำนวณ quantiles และมักจะมีพลังงานที่ต่ำเกินไป
  • ด้วยเหตุผลเหล่านี้จึงไม่แนะนำให้ทำการทดสอบ Hosmer-Lemeshow อีกต่อไป Hosmer et al มีการทดสอบ fit omn omus omnibus ที่ดีกว่าหนึ่งอันนำมาใช้ในฟังก์ชันR rmspackageresiduals.lrm
  • สำหรับกรณีของคุณที่ดีของความพอดีสามารถประเมินได้โดยการทดสอบร่วมกัน (ในการทดสอบ "อัน") ผลงานของสแควร์และเงื่อนไขการมีปฏิสัมพันธ์ทั้งหมด
  • แต่ฉันขอแนะนำให้ระบุแบบจำลองเพื่อให้มีความเหมาะสมมากขึ้น (โดยเฉพาะอย่างยิ่งเกี่ยวกับการผ่อนผันเชิงเส้นตรงโดยใช้การถดถอยเชิงเส้น) และการใช้ bootstrap เพื่อประเมินการ overfitting และเพื่อให้ได้เส้นโค้งการสอบเทียบที่ราบรื่น ความถูกต้อง สิ่งเหล่านี้ทำได้โดยใช้rmsแพ็คเกจR

ในจุดสุดท้ายฉันชอบปรัชญาที่แบบจำลองมีความยืดหยุ่น (จำกัด ด้วยขนาดตัวอย่างอย่างไรก็ตาม) และเราให้ความสำคัญกับ "พอดี" มากกว่า "ขาดพอดี"


2
มีเพียงสิ่งเดียว: การวัดส่วนใหญ่กำลังเปรียบเทียบโมเดลที่ติดตั้งกับ "โมเดลที่สมบูรณ์แบบ" ซึ่งได้รับการคาดการณ์ที่ถูกต้องสำหรับแต่ละเรคคอร์ดโดยไม่ต้องทำการปรับ df / overfitting +1 จากฉัน R2
ความน่าจะเป็นทางการ

ใช่มันเป็นเพียงที่เราไม่เคยหวังว่าจะสมบูรณ์แบบดังนั้นฉันจะไม่โทรขาดพอดี 1R2
Frank Harrell

4

จากWikipedia :

การทดสอบจะประเมินว่าอัตราเหตุการณ์ที่ตรวจพบนั้นตรงกับอัตราเหตุการณ์ที่คาดไว้ในกลุ่มย่อยของประชากรตัวอย่างหรือไม่ การทดสอบ Hosmer – Lemeshow ระบุกลุ่มย่อยเป็น deciles ของค่าความเสี่ยงที่เหมาะสม แบบจำลองที่คาดการณ์ไว้และอัตราเหตุการณ์ที่สังเกตได้ในกลุ่มย่อยจะเรียกว่าการสอบเทียบที่ดี

ความหมาย: หลังจากสร้างแบบจำลองที่ให้คะแนน y โมเดลของคุณคุณต้องการตรวจสอบว่ามีการกระจายใน 10 deciles คล้ายกับอัตราเหตุการณ์จริงหรือไม่

ดังนั้นสมมติฐานจะเป็น

  • H0 : อัตราเหตุการณ์จริงและที่คาดการณ์จะคล้ายกันใน 10 deciles
  • H1 : พวกมันเหมือนกัน

ดังนั้นถ้าค่าp-valueน้อยกว่า. 05 ค่าเหล่านี้จะไม่กระจายอย่างดีและคุณต้องปรับแต่งแบบจำลองของคุณ

ฉันหวังว่านี่จะเป็นคำตอบสำหรับการค้นหาของคุณ


3

นี้ค่อนข้างสงสัยต่อไปนี้ @ คำตอบ FrankHarrell แต่แฟนของการทดสอบ H-L จะอนุมานจากผลว่าแม้จะมีการรวมของคุณแง่กำลังสองและบางปฏิสัมพันธ์ที่ 2 สั่งรูปแบบยังคงแสดงให้เห็นการขาดที่สำคัญของพอดีและว่าบางที รูปแบบที่ซับซ้อนยิ่งขึ้นจะเหมาะสม คุณกำลังทดสอบแบบจำลองที่คุณระบุอย่างแม่นยำไม่ใช่โมเดลลำดับที่ 1 ที่ง่ายกว่า

†มันไม่ใช่รูปแบบลำดับที่สอง - มีสามการโต้ตอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.