ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์


19

ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้

แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร

ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่
ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย

นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา

           Estimate    Std. Error  z value Pr(>|z|)    
CLASS0     6.069e-02  1.564e-01   0.388   0.6979    
CLASS1     1.734e-01  2.630e-01   0.659   0.5098    
CLASS2     1.597e+00  6.354e-01   2.514   0.0119 *  

คำตอบ:


47

คำอธิบายต่อไปนี้ไม่ได้ จำกัด อยู่ที่การถดถอยแบบลอจิสติกแต่ใช้อย่างเท่าเทียมกันในการถดถอยเชิงเส้นปกติและ GLM อื่น ๆ โดยปกติRไม่รวมระดับหนึ่งของหมวดหมู่และสัมประสิทธิ์แสดงถึงความแตกต่างของแต่ละคลาสในคลาสอ้างอิงนี้ (หรือบางครั้งเรียกว่าคลาสพื้นฐาน) (นี่เรียกว่าการจำลองแบบจำลองหรือการรักษาที่แตกต่างRกันดูที่นี่สำหรับภาพรวมที่ยอดเยี่ยม ) หากต้องการดูความแตกต่างในปัจจุบันในการพิมพ์R options("contrasts")โดยปกติจะRเรียงลำดับระดับของตัวแปรเด็ดขาดตามลำดับตัวอักษรและรับคลาสแรกเป็นคลาสอ้างอิง สิ่งนี้อาจไม่เหมาะสมเสมอไปและสามารถเปลี่ยนแปลงได้โดยการพิมพ์ (ที่นี่เราจะตั้งคลาสอ้างอิงเป็น "c" ในตัวแปรใหม่)new.variable <- relevel(old.variable, ref="c"). สำหรับสัมประสิทธิ์แต่ละระดับของตัวแปรเด็ดขาดทุกระดับการทดสอบ Waldจะดำเนินการเพื่อทดสอบว่าความแตกต่างระหว่างค่าสัมประสิทธิ์ของคลาสอ้างอิงและคลาสอื่น ๆ นั้นแตกต่างจากศูนย์หรือไม่ นี่คือค่าZและพี value ในตารางการถดถอย หากคลาสคลาสเด็ดขาดเพียงคลาสเดียวมีความสำคัญสิ่งนี้ไม่ได้หมายความว่าตัวแปรทั้งหมดไม่มีความหมายและควรลบออกจากโมเดล คุณสามารถตรวจสอบผลกระทบโดยรวมของตัวแปรได้โดยทำการทดสอบอัตราส่วนความน่าจะเป็น: พอดีสองรุ่นหนึ่งอันและอีกอันหนึ่งไม่มีตัวแปรและพิมพ์anova(model1, model2, test="LRT")เข้าR(ดูตัวอย่างด้านล่าง) นี่คือตัวอย่าง:

mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

ระดับrank1ถูกละไว้และค่าสัมประสิทธิ์ของแต่ละrankหมายถึงความแตกต่างระหว่างค่าสัมประสิทธิ์ของrank1และrankระดับที่สอดคล้องกัน ดังนั้นความแตกต่างระหว่างค่าสัมประสิทธิ์ของrank1และrank2จะเป็น-0.675สัมประสิทธิ์เป็นเพียงการสกัดกั้น ดังนั้นค่าสัมประสิทธิ์ที่แท้จริงของการจะเป็น-4.67 การทดสอบของ Wald ทดสอบที่นี่ว่าความแตกต่างระหว่างสัมประสิทธิ์ของคลาสอ้างอิง (ที่นี่) และระดับที่สอดคล้องกันนั้นแตกต่างจากศูนย์หรือไม่ ในกรณีนี้เรามีหลักฐานที่แสดงว่าค่าสัมประสิทธิ์ของทุกชั้นเรียนแตกต่างจากค่าสัมประสิทธิ์ของ คุณสามารถใส่โมเดลได้โดยไม่ต้องมีการสกัดกั้นด้วยการเพิ่ม-0.675rank1rank2-3.99-0.675=-4.67rank1rank1- 1 ไปที่สูตรโมเดลเพื่อดูค่าสัมประสิทธิ์ทั้งหมดโดยตรง:

my.mod2 <- glm(admit ~ gre + gpa + rank - 1, data = mydata, family = "binomial")

summary(my.mod2) # no intercept model

Coefficients:
       Estimate Std. Error z value Pr(>|z|)    
gre    0.002264   0.001094   2.070 0.038465 *  
gpa    0.804038   0.331819   2.423 0.015388 *  
rank1 -3.989979   1.139951  -3.500 0.000465 ***
rank2 -4.665422   1.109370  -4.205 2.61e-05 ***
rank3 -5.330183   1.149538  -4.637 3.54e-06 ***
rank4 -5.541443   1.138072  -4.869 1.12e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

โปรดทราบว่าการสกัดกั้นได้หายไปในขณะนี้และสัมประสิทธิ์rank1เป็นจุดตัดของโมเดลแรก ที่นี่การทดสอบวอลด์ไม่ได้ตรวจสอบความแตกต่างระหว่างค่าสัมประสิทธิ์แบบคู่ แต่สมมติฐานว่าค่าสัมประสิทธิ์ของแต่ละบุคคลเป็นศูนย์ อีกครั้งเรามีหลักฐานว่าค่าสัมประสิทธิ์ของทุกคนrankแตกต่างจากศูนย์ ในที่สุดเพื่อตรวจสอบว่าตัวแปรทั้งหมดrankปรับปรุงแบบให้พอดีหรือไม่เราพอดีกับแบบจำลองหนึ่งแบบด้วย ( my.mod1) และหนึ่งแบบที่ไม่มีตัวแปรrank( my.mod2) และทำการทดสอบอัตราส่วนความน่าจะเป็น สิ่งนี้ทดสอบสมมติฐานที่ว่าสัมประสิทธิ์ทั้งหมดrankเป็นศูนย์:

my.mod1 <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial") # with rank
my.mod2 <- glm(admit ~ gre + gpa, data = mydata, family = "binomial") # without rank

anova(my.mod1, my.mod2, test="LRT")

Analysis of Deviance Table

Model 1: admit ~ gre + gpa + rank
Model 2: admit ~ gre + gpa
  Resid. Df Resid. Dev Df Deviance  Pr(>Chi)    
1       394     458.52                          
2       397     480.34 -3  -21.826 7.088e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

การทดสอบอัตราส่วนความน่าจะเป็นมีความสำคัญสูงและเราจะสรุปได้ว่าตัวแปรrankควรอยู่ในรูปแบบดังกล่าว

โพสต์นี้ก็น่าสนใจเช่นกัน


คำตอบที่ให้ข้อมูลมาก! คำถามด่วนหนึ่งข้อ: ถ้าเรามีอันดับเป็นผู้ทำนายเท่านั้น สำหรับการดำเนินการทดสอบ LRT โมฆะจะadmit ~ 1VS admit ~ rank - 1?
ค่า NULL

1
@NULL ใช่อย่างใดอย่างหนึ่งกับ null admit~rankหรือadmit~rank - 1พวกเขาจะเทียบเท่าเกี่ยวกับพอดี
COOLSerdash

ยอดเยี่ยม - ขอบคุณ! อีกหนึ่งคำถามที่รวดเร็ว: เมื่อฉันสนใจที่จะทำการทดสอบค่าสัมประสิทธิ์ของตัวแปรเชิงจัดหมวดหมู่ (โดยไม่เปรียบเทียบกับพื้นฐาน - ฉันหมายถึงไม่มีการสกัดกั้น), ผลกระทบของตัวทำนายอื่น ๆ เช่นgreและgpaจะได้รับผลกระทบจากการขาดนี้ รวมถึงการสกัดกั้น?
ค่า NULL

กล่าวอีกนัยหนึ่งถ้าฉันต้องการทำการทดสอบแบบสัมบูรณ์กับสัมประสิทธิ์ของตัวทำนายเชิงหมวดหมู่ในขณะที่ควบคุมสำหรับเพื่อนร่วมพันธุ์อื่น ๆ นี่เป็นวิธีที่จะไปไหม? และสิ่งนี้จะใช้กับการถดถอยเชิงเส้นหรือไม่
NULL

1
rankrankพี

8

Z

ค่าสัมประสิทธิ์ไม่สำคัญหมายความว่าคุณสามารถรวมหมวดหมู่ได้หรือไม่ ไม่ประการแรกหมายถึงไม่มีนัยสำคัญที่เราไม่สามารถปฏิเสธสมมติฐานที่ไม่มีความแตกต่าง แต่นั่นไม่ได้หมายความว่าไม่มีความแตกต่างดังกล่าว การไม่มีหลักฐานไม่ใช่สิ่งเดียวกับหลักฐานการขาด ประการที่สองการรวมหมวดหมู่โดยเฉพาะหมวดอ้างอิงเปลี่ยนการตีความของสัมประสิทธิ์อื่นทั้งหมด ไม่ว่าจะเหมาะสมหรือไม่นั้นขึ้นอยู่กับความแตกต่างของคลาสเหล่านั้น

นั่นหมายความว่าตัวแปรเด็ดขาดทั้งหมดเป็นตัวพยากรณ์ "ไม่ดี" (ไม่สำคัญ) หรือไม่? ไม่เพราะคุณจะต้องทำการทดสอบพร้อมกันสำหรับข้อกำหนดคลาสทั้งหมด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.