ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง
สิ่งนี้จะเป็นอย่างไร
ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง
สิ่งนี้จะเป็นอย่างไร
คำตอบ:
คำอธิบายหนึ่งที่เป็นไปได้คือความไม่เป็นเชิงเส้นในความสัมพันธ์ระหว่างผลลัพธ์ของคุณกับผู้ทำนาย
นี่เป็นตัวอย่างเล็กน้อย เราใช้ทำนายว่าเป็นชุดบน[-1,1]ผล แต่ไม่เป็นเส้นตรงขึ้นอยู่กับการทำนาย แต่ในตารางของการทำนายนี้: TRUE มีแนวโน้มสำหรับทั้งx \ approx-1และx \ ประมาณ 1แต่มีโอกาสน้อยสำหรับx \ approx 0 ในกรณีนี้ตัวแบบเชิงเส้นจะไม่มีนัยสำคัญ แต่การตัดตัวทำนายออกเป็นช่วงทำให้มีนัยสำคัญ
> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
>
> library(lmtest)
>
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test
Model 1: yy ~ xx
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -676.72
2 1 -677.22 -1 0.9914 0.3194
>
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test
Model 1: yy ~ xx_cut
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 3 -673.65
2 1 -677.22 -2 7.1362 0.02821 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
อย่างไรก็ตามนี่ไม่ได้หมายความว่าการแยกแยะตัวพยากรณ์ออกเป็นวิธีที่ดีที่สุด (แทบจะไม่เคยเป็นเลย) จะดีกว่ามากในการสร้างแบบจำลองความไม่เชิงเส้นโดยใช้เส้นโค้งหรือสิ่งที่คล้ายกัน
วิธีหนึ่งที่เป็นไปได้คือถ้าความสัมพันธ์ไม่เป็นเชิงเส้นชัดเจน เป็นไปไม่ได้ที่จะบอก (เนื่องจากขาดรายละเอียด) ว่าจะอธิบายสิ่งที่เกิดขึ้นจริง ๆ หรือไม่
คุณสามารถตรวจสอบด้วยตัวคุณเอง ก่อนอื่นคุณสามารถทำพล็อตตัวแปรเพิ่มเติมสำหรับตัวแปรได้เองและคุณยังสามารถพล็อตเอฟเฟ็กต์ที่ติดตั้งไว้ในโมเดลแฟคเตอร์ของรุ่นได้ หากคำอธิบายนั้นถูกต้องทั้งคู่ควรเห็นรูปแบบที่ไม่เป็นเชิงเส้นอย่างชัดเจน