การวิเคราะห์ความแปรปรวนของข้อมูลทวินาม


32

ฉันกำลังวิเคราะห์ชุดข้อมูลการทดลอง ข้อมูลประกอบด้วยเวกเตอร์คู่ของประเภทการรักษาและผลลัพธ์ทวินาม:

Treatment    Outcome
A            1
B            0
C            0
D            1
A            0
...

ในคอลัมน์ผลลัพธ์ 1 หมายถึงความสำเร็จและ 0 หมายถึงความล้มเหลว ฉันต้องการทราบว่าการรักษาแตกต่างกันอย่างมีนัยสำคัญผลลัพธ์ มีการรักษา 4 แบบที่แตกต่างกันในแต่ละการทดลองซ้ำหลายครั้ง (2000 ครั้งต่อการรักษาแต่ละครั้ง)

คำถามของฉันคือฉันสามารถวิเคราะห์ผลลัพธ์ไบนารีโดยใช้ ANOVA ได้หรือไม่ หรือฉันควรใช้การทดสอบไคสแควร์เพื่อตรวจสอบข้อมูลทวินาม? ดูเหมือนว่าไคสแควร์จะถือว่าสัดส่วนจะแบ่งเท่า ๆ กันซึ่งไม่ใช่กรณี อีกแนวคิดหนึ่งคือการสรุปข้อมูลโดยใช้สัดส่วนของความสำเร็จต่อความล้มเหลวสำหรับการรักษาแต่ละครั้งและจากนั้นใช้การทดสอบสัดส่วน

ฉันอยากรู้อยากเห็นคำแนะนำของคุณสำหรับการทดสอบที่เหมาะสมสำหรับการทดลองความสำเร็จ / ล้มเหลวแบบทวินามเหล่านี้

คำตอบ:


18

ไม่ถึง ANOVA ซึ่งถือว่าเป็นตัวแปรผลลัพธ์แบบกระจายทั่วไป (เหนือสิ่งอื่นใด) มีการแปลง "โรงเรียนเก่า" ที่ต้องพิจารณา แต่ฉันชอบการถดถอยโลจิสติก (เทียบเท่ากับไคสแควร์เมื่อมีตัวแปรอิสระเพียงตัวเดียวเช่นในกรณีของคุณ) ข้อได้เปรียบของการใช้การถดถอยแบบลอจิสติกในการทดสอบไคสแควร์คือคุณสามารถใช้ความเปรียบต่างเชิงเส้นเพื่อเปรียบเทียบระดับการรักษาที่เฉพาะเจาะจงได้อย่างง่ายดายหากคุณพบผลลัพธ์ที่สำคัญต่อการทดสอบโดยรวม (ประเภท 3) ตัวอย่างเช่น A กับ B, B กับ C เป็นต้น

เพิ่มการปรับปรุงเพื่อความชัดเจน:

เอาข้อมูลมาไว้ในมือ (ชุดข้อมูล post doc จากAllison ) และใช้ตัวแปรอ้างดังนี้นี่คือประเด็นของฉัน:

postdocData$citsBin <- ifelse(postdocData$cits>2, 3, postdocData$cits)
postdocData$citsBin <- as.factor(postdocData$citsBin)
ordered(postdocData$citsBin, levels=c("0", "1", "2", "3"))
contrasts(postdocData$citsBin) <- contr.treatment(4, base=4) # set 4th level as reference
contrasts(postdocData$citsBin)
     #   1 2 3
     # 0 1 0 0
     # 1 0 1 0
     # 2 0 0 1
     # 3 0 0 0

# fit the univariate logistic regression model
model.1 <- glm(pdoc~citsBin, data=postdocData, family=binomial(link="logit"))

library(car) # John Fox package
car::Anova(model.1, test="LR", type="III") # type 3 analysis (SAS verbiage)
     # Response: pdoc
     #          LR Chisq Df Pr(>Chisq)
     # citsBin   1.7977  3     0.6154

chisq.test(table(postdocData$citsBin, postdocData$pdoc)) 
     # X-squared = 1.7957, df = 3, p-value = 0.6159

# then can test differences in levels, such as: contrast cits=0 minus cits=1 = 0
# Ho: Beta_1 - Beta_2 = 0
cVec <- c(0,1,-1,0)
car::linearHypothesis(model.1, cVec, verbose=TRUE) 

1
@ user2040 ฉันไม่เข้าใจว่าคุณจะทำแบบทดสอบ "ประเภท 3" อย่างไร SAS เกี่ยวข้องกับอะไรหรือไม่ (ขออภัยที่ความรู้ SAS ของฉันมี จำกัด มาก) ฉันจะทำการถดถอยโลจิสติกตามที่คุณแนะนำ แต่มีตัวแปรจำลอง 2 ตัว นอกจากนี้เนื่องจากฉันเข้าใจอย่างถูกต้องหากคุณทำการถดถอยโลจิสติกการทดสอบว่าสัมประสิทธิ์บางส่วนหรือทั้งหมดเป็น 0 จะกระทำโดยการเบี่ยงเบน (หรืออัตราส่วนความน่าจะเป็น) และเป็น Chi-Sq asymptotically (ไม่จำเป็นต้องมี df = 1)
suncoolsu

1
@suncoolsu: ใช่พูดจริงคุณควรได้รับข้อสรุปเดียวกัน ฉันไม่ควรพูดว่า "เทียบเท่า" (ฉันทำงานกับข้อมูลขนาดใหญ่ดังนั้นพวกเขาจึงจบลงด้วยกัน) ฉันเพิ่มรหัสในคำตอบเพื่อช่วยชี้แจง
B_Miner

8

Xkknkkkพี^k=Xk/nk

ก.(พี)=arcsinพี

แต่บางผู้เขียนที่ทันสมัยค่อนข้างสงสัยของการเปลี่ยนแปลง arcsine ที่ดูตัวอย่างhttp://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2010.pdf แต่ผู้เขียนนี้มีความกังวลกับปัญหาเช่นการคาดการณ์ที่พวกเขาแสดง arcsine สามารถนำไปสู่ปัญหา หากคุณกังวลกับการทดสอบสมมติฐานเท่านั้นก็ควรจะเป็นเช่นนั้น วิธีการที่ทันสมัยกว่าสามารถใช้การถดถอยโลจิสติก


4
(+1) ... หากกลุ่มทั้งหมดไม่มีหมายเลขเดียวกัน ข้อสังเกต
Scortchi - Reinstate Monica

1
หรือสามารถใช้ตุ้มน้ำหนักตามจำนวนการสังเกต
kjetil b halvorsen

3

ฉันต้องการจะแตกต่างจากสิ่งที่คุณคิดเกี่ยวกับการทดสอบ Chi-Sq มันสามารถใช้งานได้แม้ว่าข้อมูลจะไม่เป็นแบบทวินาม มันขึ้นอยู่กับมาตรฐานเชิงเส้นกำกับของ mle (ในกรณีส่วนใหญ่)

ฉันจะทำการถดถอยโลจิสติกเช่นนี้

เข้าสู่ระบบπ^1-π^=β0+β1×D1+β2×D2

ที่ไหน

D1 และ D2 เป็นตัวแปรจำลอง D1=D2=0A,D1=1,D2=0B,D1=1D2=1C

Hโอ:β0=β1=β2=0

ANOVA เทียบเท่าหรือไม่ถ้ามีความสัมพันธ์หรือไม่

Hโอ:β0=0

การทดสอบคือ A มีผลบ้างไหม

Ho:β1β0=0

Is the test is B has some effect.

Ho:β2(β0+β12)=0

Is the test is C has some effect.

Now you can do further contrasts to find our what you are interested in. It is still a chi-sq test, but with different degrees of freedom (3, 1, 1, and 1, respectively)


ฉันยังคงต้องคิดถึงความแตกต่าง ฉันจะแก้ไขเมื่อใดก็ตามที่ฉันมีเวลา ขออภัยเกี่ยวกับเรื่องนั้น
suncoolsu

-3

ฉันคิดว่าคุณพูดถูกว่า ANOVA ไม่ควรใช้เพื่อวิเคราะห์ตัวแปรที่ขึ้นกับทวินาม หลายคนใช้สิ่งนี้เพื่อเปรียบเทียบความหมายของตัวแปรตอบกลับแบบไบนารี่ (0 1) แต่ไม่ควรใช้เพราะสิ่งนี้ละเมิดสมมติฐานของ Normality และ Equal Equal อย่างจริงจัง การทดสอบ Chi-Square หรือการถดถอยโลจิสติกเหมาะที่สุดสำหรับสถานการณ์เหล่านี้


เช่นเดียวกับคำตอบของคุณที่นี่
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.