ฉันมีข้อมูลจากการทดสอบการสำรวจซึ่งผู้ตอบถูกสุ่มให้กับหนึ่งในสี่กลุ่ม:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
ในขณะที่กลุ่มการรักษาทั้งสามแตกต่างกันเล็กน้อยในการกระตุ้นที่ใช้ความแตกต่างหลักที่ฉันสนใจคือระหว่างกลุ่มควบคุมและกลุ่มการรักษา ดังนั้นฉันจึงกำหนดตัวแปรหุ่นจำลองControl
:
> summary(df$Control)
TRUE FALSE
59 191
ในการสำรวจผู้ตอบแบบสอบถามถูกถาม (เหนือสิ่งอื่นใด) เพื่อเลือกสิ่งที่พวกเขาต้องการสองสิ่ง:
> summary(df$Prefer)
A B NA's
152 93 5
จากนั้นหลังจากได้รับการกระตุ้นตามที่กำหนดโดยกลุ่มการรักษาของพวกเขา (และไม่มีถ้าพวกเขาอยู่ในกลุ่มควบคุม) ผู้ตอบแบบสอบถามถูกขอให้เลือกระหว่างสองสิ่งเดียวกัน:
> summary(df$Choice)
A B
149 101
ฉันต้องการทราบว่าการอยู่ในหนึ่งในสามกลุ่มการรักษามีผลต่อการเลือกของผู้ตอบแบบสอบถามในคำถามสุดท้ายนี้หรือไม่ สมมติฐานของฉันคือว่าผู้ตอบแบบสอบถามที่ได้รับการรักษาที่มีแนวโน้มที่จะเลือกกว่า A
B
เนื่องจากฉันทำงานกับข้อมูลที่เป็นหมวดหมู่ฉันได้ตัดสินใจใช้การถดถอยแบบ logit (อย่าลังเลที่จะพูดสอดหากคุณคิดว่าไม่ถูกต้อง) เนื่องจากผู้ตอบถูกสุ่มเลือกฉันอยู่ภายใต้การแสดงผลที่ฉันไม่ควรจำเป็นต้องควบคุมตัวแปรอื่น ๆ (เช่นข้อมูลประชากร) ดังนั้นฉันจึงทิ้งคำถามเหล่านี้ไว้ รุ่นแรกของฉันเป็นเพียงต่อไปนี้:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
ฉันอยู่ภายใต้ความประทับใจว่าการสกัดกั้นที่มีนัยสำคัญทางสถิติไม่ใช่สิ่งที่มีความหมายที่ตีความได้ ฉันคิดว่าบางทีฉันควรรวมคำศัพท์ไว้ดังนี้:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
ตอนนี้สถานะผู้ตอบแบบสอบถามในกลุ่มการรักษามีผลที่คาดหวัง นี่เป็นชุดของขั้นตอนที่ถูกต้องหรือไม่ ฉันจะตีความคำที่ใช้โต้ตอบได้ControlFALSE:PreferA
อย่างไร สัมประสิทธิ์อื่น ๆ ยังคงเป็นอัตราต่อรองหรือไม่