การตีความคำศัพท์โต้ตอบในการถดถอยโลจิทด้วยตัวแปรเด็ดขาด


25

ฉันมีข้อมูลจากการทดสอบการสำรวจซึ่งผู้ตอบถูกสุ่มให้กับหนึ่งในสี่กลุ่ม:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

ในขณะที่กลุ่มการรักษาทั้งสามแตกต่างกันเล็กน้อยในการกระตุ้นที่ใช้ความแตกต่างหลักที่ฉันสนใจคือระหว่างกลุ่มควบคุมและกลุ่มการรักษา ดังนั้นฉันจึงกำหนดตัวแปรหุ่นจำลองControl:

> summary(df$Control)
     TRUE FALSE 
       59   191 

ในการสำรวจผู้ตอบแบบสอบถามถูกถาม (เหนือสิ่งอื่นใด) เพื่อเลือกสิ่งที่พวกเขาต้องการสองสิ่ง:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

จากนั้นหลังจากได้รับการกระตุ้นตามที่กำหนดโดยกลุ่มการรักษาของพวกเขา (และไม่มีถ้าพวกเขาอยู่ในกลุ่มควบคุม) ผู้ตอบแบบสอบถามถูกขอให้เลือกระหว่างสองสิ่งเดียวกัน:

> summary(df$Choice)
  A    B 
149  101 

ฉันต้องการทราบว่าการอยู่ในหนึ่งในสามกลุ่มการรักษามีผลต่อการเลือกของผู้ตอบแบบสอบถามในคำถามสุดท้ายนี้หรือไม่ สมมติฐานของฉันคือว่าผู้ตอบแบบสอบถามที่ได้รับการรักษาที่มีแนวโน้มที่จะเลือกกว่า AB

เนื่องจากฉันทำงานกับข้อมูลที่เป็นหมวดหมู่ฉันได้ตัดสินใจใช้การถดถอยแบบ logit (อย่าลังเลที่จะพูดสอดหากคุณคิดว่าไม่ถูกต้อง) เนื่องจากผู้ตอบถูกสุ่มเลือกฉันอยู่ภายใต้การแสดงผลที่ฉันไม่ควรจำเป็นต้องควบคุมตัวแปรอื่น ๆ (เช่นข้อมูลประชากร) ดังนั้นฉันจึงทิ้งคำถามเหล่านี้ไว้ รุ่นแรกของฉันเป็นเพียงต่อไปนี้:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

ฉันอยู่ภายใต้ความประทับใจว่าการสกัดกั้นที่มีนัยสำคัญทางสถิติไม่ใช่สิ่งที่มีความหมายที่ตีความได้ ฉันคิดว่าบางทีฉันควรรวมคำศัพท์ไว้ดังนี้:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

ตอนนี้สถานะผู้ตอบแบบสอบถามในกลุ่มการรักษามีผลที่คาดหวัง นี่เป็นชุดของขั้นตอนที่ถูกต้องหรือไม่ ฉันจะตีความคำที่ใช้โต้ตอบได้ControlFALSE:PreferAอย่างไร สัมประสิทธิ์อื่น ๆ ยังคงเป็นอัตราต่อรองหรือไม่


คำตอบของฉันที่นี่มีความเกี่ยวข้อง: stats.stackexchange.com/questions/246873/…
kjetil b halvorsen

คำตอบ:


31

ฉันคิดว่า PreferA = 1 เมื่อผู้ใช้ต้องการ A และ 0 เป็นอย่างอื่นและ ControlFALSE นั้น = 1 เมื่อรับการรักษาและ 0 เมื่อควบคุม

โอกาสของการ preffering A เมื่อบุคคลไม่เคยทำมาก่อนและไม่ได้รับการรักษา (ControlFALSE = 0 และ PreferA = 0) คือ , นั่นคือมี 23 คนที่ชอบ A สำหรับทุกคน ที่ชอบ B. ดังนั้น A จึงเป็นที่นิยมมากexp(3.135)=23

ผลกระทบของ treatmeant หมายถึงบุคคลที่ไม่ชอบ A ก่อนหน้านี้ (PreferA = 0) ในกรณีนั้นอัตราต่อรองพื้นฐานจะลดลงตามปัจจัยหรือเมื่อเธอหรือเขาถูกรักษา ดังนั้นโอกาสในการเลือก A สำหรับผู้ที่ได้รับการรักษาและไม่ชอบ A ก่อนหน้านี้คือดังนั้นจึงมี 2.3 คนที่ชอบ A สำหรับทุกคนที่ชอบ B ดังนั้นในกลุ่มนี้ A จึงเป็นที่นิยมมากกว่า น้อยกว่า B แต่น้อยกว่าในกลุ่มที่ไม่ได้รับการรักษา / พื้นฐาน( 1 - .099 ) × 100 % = - 90.1 % .099 23 = 2.3exp(2.309)=.099(1.099)×100%=90.1%.09923=2.3

ผลของการเลือก A ก่อนหน้านี้หมายถึงบุคคลที่เป็นตัวควบคุม (ControlFALSE = 0) ในกรณีนั้นอัตราต่อรองพื้นฐานลดลงตามปัจจัย .หรือเมื่อมีคนต้องการ A ก่อนหน้านี้ (ก่อนหน้านี้คนที่ได้รับการอ้างถึง A มีโอกาสน้อยที่จะทำเช่นนั้น- 99.4 %.00699.4%

ผลกระทบจากการเปรียบเทียบผลกระทบของการรักษาสำหรับคนที่ชอบก่อนหน้านี้และผู้ที่ไม่ได้ ถ้าคนที่ต้องการก่อนหน้านี้ (PreferA = 1) แล้วอัตราส่วนการเพิ่มขึ้นของการรักษาโดยปัจจัย17.3 ดังนั้นมีอัตราส่วนราคาต่อรองของการรักษาสำหรับผู้ที่ก่อนหน้านี้ที่ต้องการคือ1.71 อีกวิธีหนึ่งคืออัตราส่วนของการรักษานี้สำหรับผู้ที่ท่านต้องการก่อนหน้านี้อาจจะคำนวณได้จาก(2.850-2.309)17.3 × .099 = 1.71 exp ( 2.850 - 2.309 )exp(2.850)=17.317.3×.099=1.71exp(2.8502.309)

ดังนั้นคง exponentiated ช่วยให้คุณมีพื้นฐานอัตราต่อรอง , ค่าสัมประสิทธิ์ exponentiated ของผลกระทบหลักให้คุณอัตราส่วนราคาต่อรองเมื่อตัวแปรอื่น ๆ เท่ากับ 0 และค่าสัมประสิทธิ์ exponentiated ของข้อตกลงการปฏิสัมพันธ์บอกคุณอัตราส่วนโดยชการเปลี่ยนแปลงอัตราส่วนราคาต่อรอง


ขอบคุณ Maarten สิ่งนี้มีประโยชน์มากเช่นเดียวกับคำตอบของคุณกับคำถามอื่น ๆ ที่เกี่ยวข้อง แต่ฉันต้องการความกระจ่างเล็กน้อยในจุดหนึ่ง ในขณะที่ฉันพูดพาดพิงในคำถามอื่น ๆ ของฉันฉันกังวลเกี่ยวกับความถูกต้องทางสถิติของสิ่งที่ฉันทำที่นี่เพราะความจริงที่ว่าControlFALSEมีค่า p สูงในรุ่นแรกและจากนั้นเป็นรุ่นที่ค่อนข้างต่ำในรุ่นที่สอง การนำคำตอบของคุณไปใช้กับคำถามอื่นของฉันกับกรณีเฉพาะนี้คุณบอกว่าสิ่งนี้อาจเกิดขึ้นControlได้หากมีผลเสียต่อกลุ่มหนึ่งPreferและเป็นผลบวกกับอีกกลุ่มหนึ่ง
Pygmalion

(ไม่มีที่ว่าง) การตีความนั้นเหมาะสมหรือไม่? ฉันไม่แน่ใจว่าจะสมัครโดยตรงได้อย่างไร
Pygmalion

ผลของการControlFALSEในรูปแบบแรกคือผลของการรักษาสำหรับทั้งสองเหล่านั้นที่ต้องการก่อนหน้านี้และผู้ที่ไม่ได้ในขณะที่มีผลในรูปแบบที่สองเป็นเพียงผลของการรักษาสำหรับผู้ที่ไม่ชอบก่อนหน้านี้ ไม่ว่าจะตกลงหรือไม่ไม่ใช่คำถามเชิงสถิติ แต่เป็นจริงหรือไม่
Maarten Buis

@MaartenBuis คำอธิบายที่ดี คุณจะทำการคำนวณเชิงเปรียบเทียบสำหรับช่วงความเชื่อมั่นของการประมาณการอย่างไร เพื่อความสะดวกในการตีความฉันมักแบ่งโมเดลโลจิสติก (เช่นโดยการตั้งค่าก่อนหน้าในตัวอย่างนี้) และใช้คำศัพท์การโต้ตอบเป็น "การทดสอบทางสถิติสำหรับความแตกต่างที่สำคัญใน OR นี่ยอมรับได้หรือไม่
bobmcpop

2

ฉันยังพบว่าเอกสารนี้มีประโยชน์ในการตีความการโต้ตอบในการถดถอยโลจิสติก:

เฉินเจเจ (2003) การสื่อสารข้อมูลที่ซับซ้อน: การแปลความหมายของการมีปฏิสัมพันธ์ทางสถิติในการวิเคราะห์การถดถอยโลจิสติกหลาย อเมริกันวารสารสาธารณสุข , 93 (9), 1376-1377


4
ฉันได้ให้ข้อมูลอ้างอิงแบบเต็ม (ชื่อผู้แต่งวันที่วารสาร ฯลฯ ) ซึ่งหมายความว่าการบริจาคนั้นจะยังคงมีประโยชน์หากที่อยู่ลิงก์มีการเปลี่ยนแปลง แต่คุณสามารถขยายเพื่อสรุปเนื้อหาได้หรือไม่ มิฉะนั้นนี่เป็นความคิดเห็นที่มากกว่าคำตอบเราชอบคำตอบที่มีอยู่ในตัวเองดังนั้นพวกเขาจึงต่อต้าน "link-rot" หรือเราสามารถแปลงเป็นความคิดเห็นให้คุณ
Silverfish

ขอบคุณ ฉันกำลังเชื่อมโยง NCBI ดังนั้นฉันคิดว่ามันจะไม่เป็นไร ฉันเห็นด้วยกับการเปลี่ยนแปลง ขอบคุณ!
deepseas

0

การตั้งค่าของฉันเองเมื่อพยายามตีความการโต้ตอบในการถดถอยโลจิสติกคือการดูความน่าจะเป็นที่คาดการณ์สำหรับการรวมกันของตัวแปรเด็ดขาด ในกรณีของคุณนี่อาจเป็นเพียง 4 ความน่าจะเป็น:

  1. ชอบ A, ควบคุมได้จริง
  2. ชอบ A, ควบคุม false
  3. ชอบ B ควบคุมจริง
  4. ชอบ B ควบคุม false

เมื่อฉันมีตัวแปรต่อเนื่องฉันมักจะดูค่าที่คาดการณ์ไว้ที่ค่ามัธยฐานควอไทล์ที่ 1 และ 3

แม้ว่าสิ่งนี้จะไม่ได้รับการตีความโดยตรงของสัมประสิทธิ์แต่ละอย่าง แต่ฉันพบว่าบ่อยครั้งที่มันทำให้ฉัน (และลูกค้าของฉัน) มองเห็นสิ่งที่เกิดขึ้นอย่างชัดเจน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.