การจัดประเภทตัวแปรจะเปลี่ยนจากไม่มีนัยสำคัญเป็นสำคัญ


17

ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง

สิ่งนี้จะเป็นอย่างไร

คำตอบ:


25

คำอธิบายหนึ่งที่เป็นไปได้คือความไม่เป็นเชิงเส้นในความสัมพันธ์ระหว่างผลลัพธ์ของคุณกับผู้ทำนาย

นี่เป็นตัวอย่างเล็กน้อย เราใช้ทำนายว่าเป็นชุดบน[-1,1]ผล แต่ไม่เป็นเส้นตรงขึ้นอยู่กับการทำนาย แต่ในตารางของการทำนายนี้: TRUE มีแนวโน้มสำหรับทั้งx \ approx-1และx \ ประมาณ 1แต่มีโอกาสน้อยสำหรับx \ approx 0 ในกรณีนี้ตัวแบบเชิงเส้นจะไม่มีนัยสำคัญ แต่การตัดตัวทำนายออกเป็นช่วงทำให้มีนัยสำคัญ[-1,1]x-1x1x0

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

อย่างไรก็ตามนี่ไม่ได้หมายความว่าการแยกแยะตัวพยากรณ์ออกเป็นวิธีที่ดีที่สุด (แทบจะไม่เคยเป็นเลย) จะดีกว่ามากในการสร้างแบบจำลองความไม่เชิงเส้นโดยใช้หรือสิ่งที่คล้ายกัน


มีตัวอย่างบางส่วนที่อาจทำให้เสียความรู้สึกได้หรือไม่? ตัวอย่างเช่นหากคุณมีเกณฑ์เฉพาะ (เช่นอายุ 18 ปี) ที่มีการสลับไบนารีในผลลัพธ์ อายุที่เป็นตัวเลขในช่วง 18+ อาจไม่สำคัญ แต่อายุไบนารี> 18 อาจมีนัยสำคัญหรือไม่
ajrwhite

3
@ajrwhite: มันขึ้นอยู่กับสนาม ทุกที่ที่มีการประมวลผลเกณฑ์ใน discretization กฎหมายอาจทำให้รู้สึก ตัวอย่างเช่นถ้าคุณจำลองพฤติกรรมการลงคะแนนคุณควรตรวจสอบว่ามีใครบางคนที่มีสิทธิ์ลงคะแนนเมื่ออายุ 18 หรือไม่เช่นเดียวกันในเยอรมนีภาษีรถยนต์ของคุณขึ้นอยู่กับการกำจัดเครื่องยนต์และกระโดดที่ 1700, 1800, 1900, ... ccm รถยนต์ทุกคันมีการกำจัดของ 1699, 1799, ... ccm (แบบแยกแยะตัวเอง) ในวิทยาศาสตร์ธรรมชาติเช่นชีววิทยาการแพทย์จิตวิทยา ฯลฯ ฉันพยายามดิ้นรนเพื่อหาตัวอย่างที่การแยกแยะนั้นสมเหตุสมผล
S. Kolassa - Reinstate Monica

7

วิธีหนึ่งที่เป็นไปได้คือถ้าความสัมพันธ์ไม่เป็นเชิงเส้นชัดเจน เป็นไปไม่ได้ที่จะบอก (เนื่องจากขาดรายละเอียด) ว่าจะอธิบายสิ่งที่เกิดขึ้นจริง ๆ หรือไม่

คุณสามารถตรวจสอบด้วยตัวคุณเอง ก่อนอื่นคุณสามารถทำพล็อตตัวแปรเพิ่มเติมสำหรับตัวแปรได้เองและคุณยังสามารถพล็อตเอฟเฟ็กต์ที่ติดตั้งไว้ในโมเดลแฟคเตอร์ของรุ่นได้ หากคำอธิบายนั้นถูกต้องทั้งคู่ควรเห็นรูปแบบที่ไม่เป็นเชิงเส้นอย่างชัดเจน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.