ทดสอบสัมประสิทธิ์การถดถอยโลจิสติกโดยใช้


12

เรื่องย่อ:มีทฤษฎีทางสถิติใดบ้างที่สนับสนุนการใช้การแจกแจงแบบ (มีองศาอิสระตามส่วนเบี่ยงเบนส่วนที่เหลือ) สำหรับการทดสอบสัมประสิทธิ์การถดถอยโลจิสติกมากกว่าการแจกแจงแบบปกติมาตรฐานหรือไม่?t


บางเวลาที่ผ่านมาฉันค้นพบว่าเมื่อปรับโมเดลการถดถอยโลจิสติกใน SAS PROC GLIMMIX ภายใต้การตั้งค่าเริ่มต้นสัมประสิทธิ์การถดถอยโลจิสติกจะถูกทดสอบโดยใช้การแจกแจงแบบแทนการแจกแจงแบบปกติมาตรฐาน 1นั่นคือ GLIMMIX รายงานคอลัมน์ที่มีอัตราส่วนβ 1 / t1 (ซึ่งผมจะเรียกZในส่วนที่เหลือของคำถามนี้) แต่ยังมีรายงานว่า "องศาความเป็นอิสระ" คอลัมน์เช่นเดียวกับP-value ขึ้นอยู่กับสมมติฐานทีจัดจำหน่ายสำหรับZกับองศาอิสระ ขึ้นอยู่กับการเบี่ยงเบนที่เหลือ - นั่นคือองศาอิสระ = จำนวนการสังเกตทั้งหมดลบด้วยจำนวนพารามิเตอร์ ที่ด้านล่างของคำถามนี้ฉันให้รหัสและผลลัพธ์ใน R และ SAS สำหรับการสาธิตและการเปรียบเทียบ 2β^1/var(β^1)zptz2

สิ่งนี้ทำให้ฉันสับสนเนื่องจากฉันคิดว่าสำหรับโมเดลเชิงเส้นแบบทั่วไปเช่นการถดถอยโลจิสติกไม่มีทฤษฎีทางสถิติที่จะสนับสนุนการใช้ -distribution ในกรณีนี้ แต่ฉันคิดว่าสิ่งที่เรารู้เกี่ยวกับกรณีนี้คือt

  • คือ "ปกติ" กระจายโดยปกติ;z
  • การประมาณนี้อาจไม่ดีสำหรับตัวอย่างขนาดเล็ก
  • อย่างไรก็ตามมันไม่สามารถสันนิษฐานได้ว่ามีการแจกแจงแบบtเราสามารถสมมติในกรณีของการถดถอยปกติzt

zttt

  1. zt
  2. t

โดยทั่วไปมีการสนับสนุนจริง ๆ สำหรับสิ่งที่ GLIMMIX กำลังทำที่นี่นอกเหนือจากสัญชาตญาณที่อาจสมเหตุสมผลโดยทั่วไปหรือไม่

รหัส R:

summary(glm(y ~ x, data=dat, family=binomial))

เอาท์พุท R:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

รหัส SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

เอาต์พุต SAS (แก้ไข / ตัวย่อ):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1

2n


PROC LOGISTICz

1
SPSS ปรากฏขึ้นเพื่อทดสอบโมเดลเอฟเฟ็กต์ผสมแบบโลจิสติกส์ในลักษณะเดียวกัน: (
Richard Border

คำตอบ:


6

ในความเป็นจริงมีทฤษฎีทางสถิติแสดงให้เห็นว่า z ติดตามการกระจายตัวในกรณีของการถดถอยโลจิสติกและ / หรือตัวแบบเชิงเส้นทั่วไปอื่น ๆ หรือไม่?

เท่าที่ฉันทราบไม่มีทฤษฎีดังกล่าวอยู่ ฉันเห็นการโต้แย้งด้วยมือเป็นประจำและการทดลองจำลองเป็นครั้งคราวเพื่อสนับสนุนวิธีการดังกล่าวสำหรับตระกูล GLM โดยเฉพาะหรืออย่างอื่น การจำลองมีความน่าเชื่อถือมากกว่าการโต้แย้งด้วยมือ

หากไม่มีทฤษฎีดังกล่าวมีอย่างน้อยมีเอกสารแสดงให้เห็นว่าสมมติว่าการกระจายในลักษณะนี้ใช้งานได้ดีหรืออาจดีกว่าสมมติว่ามีการแจกแจงแบบปกติหรือไม่?

ไม่ใช่ว่าฉันจำได้ แต่ก็ไม่ได้พูดอะไรมาก

การจำลองตัวอย่างขนาดเล็กของฉันเอง (จำกัด ) แนะนำให้สมมติว่าการแจกแจงแบบ t ในกรณีโลจิสติกอาจเลวร้ายยิ่งกว่าการสมมติแบบปกติ:

ป้อนคำอธิบายรูปภาพที่นี่

ตัวอย่างเช่นที่นี่เป็นผลลัพธ์ (ในฐานะแผนการ QQ) ของ 10,000 การจำลองของสถิติ Wald สำหรับการถดถอยโลจิสติกสามัญ เส้นสีแดงคือเส้น y = x อย่างที่คุณเห็นในแต่ละกรณีปกติค่อนข้างดีประมาณช่วงที่ดีในช่วงกลาง - ออกไปประมาณ 5 และ 95th เปอร์เซนต์ (1.6-1.7ish) แล้วนอกว่าการกระจายตัวของสถิติการทดสอบที่แท้จริงคือ เบาเทลด์กว่าปกติอย่างมาก

ดังนั้นสำหรับกรณีลอจิสติกฉันจะบอกว่าอาร์กิวเมนต์ใด ๆ ที่ใช้ t- แทน z- ดูเหมือนว่าไม่น่าจะประสบความสำเร็จบนพื้นฐานนี้เนื่องจากการจำลองสถานการณ์เช่นนี้มีแนวโน้มที่จะแนะนำผลลัพธ์อาจมีแนวโน้มที่จะอยู่บนหางที่มีน้ำหนักเบา ด้านข้างของปกติมากกว่าเทลด์ที่หนักกว่า

[อย่างไรก็ตามฉันขอแนะนำให้คุณอย่าเชื่อถือการจำลองสถานการณ์ของฉันมากไปกว่าการเตือนให้ระวัง - ลองทำด้วยตัวคุณเองบางทีสำหรับสถานการณ์ที่เป็นตัวแทนของสถานการณ์ของคุณเองโดยทั่วไปของ IV และโมเดลของคุณ (แน่นอนคุณต้องจำลอง กรณีที่มีค่า Null บางส่วนเป็นจริงเพื่อดูว่ามีการแจกจ่ายอะไรให้ใช้ภายใต้ค่า Null) ฉันสนใจที่จะฟังว่าพวกเขาออกมาเพื่อคุณอย่างไร]


1
t

4

ต่อไปนี้คือการจำลองเพิ่มเติมเล็กน้อยเพื่อขยายเล็กน้อยในสิ่งที่ Glen_b นำเสนอแล้ว

[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

ztdf=N2z=0p=1QQsim

ptppHistSim

t


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.