การถดถอยเทียบกับความคลาดเคลื่อน ANOVA (aov vs lm ใน R)


21

ฉันมักจะรู้สึกว่าการถดถอยเป็นเพียงรูปแบบทั่วไปของ ANOVA และผลลัพธ์ก็จะเหมือนกัน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้รันทั้งการถดถอยและการวิเคราะห์ความแปรปรวนของข้อมูลเดียวกันและผลลัพธ์แตกต่างกันอย่างมีนัยสำคัญ นั่นคือในรูปแบบการถดถอยทั้งผลกระทบหลักและการมีปฏิสัมพันธ์อย่างมีนัยสำคัญในขณะที่ ANOVA หนึ่งผลกระทบหลักไม่สำคัญ ฉันคาดหวังว่าสิ่งนี้จะเกี่ยวข้องกับการโต้ตอบ แต่ไม่ชัดเจนสำหรับฉันเกี่ยวกับการสร้างแบบจำลองคำถามเดียวกัน หากเป็นสิ่งสำคัญตัวทำนายหนึ่งตัวจะจัดหมวดหมู่และอีกตัวเป็นแบบต่อเนื่องตามที่ระบุในการจำลองด้านล่าง

นี่คือตัวอย่างของข้อมูลของฉันและการวิเคราะห์ที่ฉันใช้ แต่ไม่มีค่า p หรือเอฟเฟ็กต์ที่มีนัยสำคัญในผลลัพธ์

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

summary (lm ()) ให้ค่าสัมประสิทธิ์ความเปรียบต่างที่คุณได้ระบุกับคุณซึ่งเป็นค่าความเปรียบต่างของการรักษาหากไม่มีข้อมูลจำเพาะ ในขณะที่บทสรุป (aov ()) กำลังให้ตาราง anova แก่คุณ ถ้าคุณต้องการ anova สำหรับรุ่น lm คุณต้อง anova (lm ())
Matt Albrecht

groupเป็นเวกเตอร์เชิงตัวเลขนี่คือจุดประสงค์หรือไม่ โดยปกติการจัดกลุ่มปัจจัยที่ควรจะมีระดับเช่นว่าการเปลี่ยนแปลงเพื่อความแตกต่างที่สามารถจัดการได้โดยอัตโนมัติด้วยฟังก์ชั่นเช่นfactor lm()สิ่งนี้จะชัดเจนเมื่อคุณมีมากกว่าสองกลุ่มหรือใช้การเข้ารหัสอื่นที่ไม่ใช่ 0/1 สำหรับgroupตัวแปรของคุณ
caracal

คำตอบ:


17

summaryเรียกฟังก์ชันวิธีที่แตกต่างขึ้นอยู่กับระดับของวัตถุ ความแตกต่างไม่ได้อยู่ที่aovvs lmแต่เป็นข้อมูลที่นำเสนอเกี่ยวกับโมเดล ตัวอย่างเช่นหากคุณใช้anova(mod1)และanova(mod2)คุณควรได้ผลลัพธ์เดียวกัน

ดังที่ @Glen กล่าวว่ากุญแจสำคัญคือการทดสอบที่รายงานนั้นขึ้นอยู่กับผลบวกของ Type 1 หรือ Type 3 สิ่งเหล่านี้จะแตกต่างกันเมื่อความสัมพันธ์ระหว่างตัวแปรอธิบายของคุณไม่ใช่ 0 อย่างแน่นอนเมื่อมีความสัมพันธ์กัน SS บางตัวนั้นไม่ซ้ำกันสำหรับตัวทำนายหนึ่งและอีกตัวหนึ่ง แต่บางตัวอาจเป็นเพราะ ( คุณสามารถเห็นภาพนี้ได้โดยการจินตนาการสัญลักษณ์ MasterCard- มีพื้นที่ทับซ้อนขนาดเล็กอยู่ตรงกลาง) ไม่มีคำตอบที่เป็นเอกลักษณ์ในสถานการณ์นี้และน่าเสียดายที่นี่เป็นบรรทัดฐานสำหรับข้อมูลที่ไม่ใช่การทดลอง วิธีการหนึ่งสำหรับนักวิเคราะห์ที่จะใช้วิจารณญาณและกำหนด SS ที่ทับซ้อนกับหนึ่งในตัวแปร ตัวแปรนั้นจะเข้าสู่โมเดลก่อน ตัวแปรอื่น ๆ จะเข้าสู่โมเดลที่สองและรับ SS ซึ่งดูเหมือนคุกกี้ที่ถูกกัดออกไป เอฟเฟกต์สามารถทดสอบได้โดยสิ่งที่บางครั้งเรียกว่าR2เปลี่ยนหรือเปลี่ยน F วิธีนี้ใช้ Type 1 SS อีกวิธีหนึ่งคุณสามารถทำสองครั้งในแต่ละครั้งแรกและรายงานการทดสอบการเปลี่ยนแปลง F สำหรับผู้ทำนายทั้งสอง ด้วยวิธีนี้ตัวแปรไม่ได้รับ SS เนื่องจากการทับซ้อน วิธีนี้ใช้ Type 3 SS (ฉันควรจะบอกคุณด้วยว่าแนวทางหลังนั้นมีความสำคัญน้อย)

ทำตามคำแนะนำของ @BrettMagill ในความคิดเห็นด้านล่างนี้ฉันสามารถลองทำให้ชัดเจนขึ้นเล็กน้อย (โปรดทราบว่าในตัวอย่างของฉันฉันใช้ตัวทำนาย 2 ตัวเท่านั้นและไม่มีการโต้ตอบ แต่ความคิดนี้สามารถปรับขนาดให้ครอบคลุมสิ่งที่คุณต้องการได้)

ประเภท 1: SS (A) และ SS (B | A)

ประเภท 3: SS (A | B) และ SS (B | A)


1
นี่เป็นคำอธิบายที่ดีของปัญหา คุณอาจทำให้ข้อความชัดเจนขึ้นด้วย: Type I: SS_A = SS (A) SS_B = SS (B | A) และ SS_AB = SS (AB | B, A) Type III: SS_A = SS (A | B, AB ) และ SS_B = SS (B | A, AB) และ SS_AB = SS (AB | A, B)
Brett

1
ขอบคุณมากสำหรับความช่วยเหลือของคุณ. ฉันเข้าใจแล้วว่าเกิดอะไรขึ้นในแง่ของความแตกต่างของแบบจำลองเหล่านี้ แต่ฉันยังไม่ชัดเจนว่าเมื่อใดควรใช้แบบจำลองโนวาหรือการถดถอย ที่ปรึกษาของฉันกำลังให้คำปรึกษา anova แต่ฉันได้รับการสอนให้ใช้การถดถอยเสมอและฉันไม่แน่ใจว่าจะใช้วิธีไหนที่เหมาะสมกว่าเมื่อผลลัพธ์ต่างกัน คุณมีตัวอย่างหรือแหล่งข้อมูลที่จะให้คำแนะนำว่าควรเหมาะสมเมื่อใด ขอบคุณอีกครั้งสำหรับความช่วยเหลือของคุณ
รีเบคก้า

1
ฉันขอโทษฉันไม่ได้ติดตาม ประเด็นของฉันคือโมเดลไม่ได้แตกต่างกัน ANOVA คือการถดถอยด้วยตัวทำนายเชิงคุณภาพทั้งหมด หากคุณมีรูปแบบการถดถอยที่มีตัวทำนายอย่างต่อเนื่องและมีคุณภาพและคุณป้อนตัวทำนายอย่างต่อเนื่องก่อนจากนั้นตัวทำนายเชิงคุณภาพ (แต่ไม่มีคำที่มีปฏิสัมพันธ์) นั่นคือ ANCOVA ทั้งสองวิธีนั้นใช้ได้ตั้งแต่ 'เบื้องหลัง' มันเหมือนกัน ฉันมักจะเขียนโค้ดนี้ว่าถดถอย แต่นั่นเป็นเรื่องของสไตล์ OTOH ถ้าที่ปรึกษาของคุณต้องการให้รันสไตล์ ANOVA ให้ไปที่เส้นทางนั้นเนื่องจากไม่มีความแตกต่าง
gung - Reinstate Monica

2
บางสิ่ง: (3 ขึ้นไป) การโต้ตอบไม่ได้หมายความว่าตัวแปรอิสระของคุณมีความสัมพันธ์กันสิ่งเหล่านี้เป็นเพียงสิ่งที่แตกต่างกัน (2 ขึ้นไป) หากแบบจำลอง 3 ดีกว่าแบบจำลอง 2 อย่างมีนัยสำคัญใช่แล้วสิ่งนี้แสดงให้เห็นว่าการทำงานร่วมกันมีความสำคัญ (เนื่องจากการทำงานร่วมกันเป็นสิ่งเดียวที่แตกต่างระหว่างพวกเขา) (1 ขึ้นไป) คุณต้องการหลีกเลี่ยงเพียงแค่การตกปลาเพื่อหาผลกระทบที่สำคัญนอกเสียจากว่าคุณกำลังคิดว่าการศึกษาของคุณในฐานะนักบินที่คุณจะใช้ในการวางแผนการศึกษาเชิงยืนยันภายหลัง (ในกรณีนี้ ฉันรวบรวมคุณวิ่งการศึกษานี้เพื่อดูทั้งสามดังนั้นไปกับรุ่น 3
gung - Reinstate Monica

2
นอกจากนี้การโต้ตอบก็หมายความว่าคุณไม่ควรตีความผลกระทบหลักดังนั้นการนำเสนอรุ่นที่ 1 เท่านั้นอาจทำให้เข้าใจผิดได้ หากคุณต้องการข้อมูลเพิ่มเติมเกี่ยวกับประเภทของ SS ฉันเขียนคำตอบที่ค่อนข้างครอบคลุมที่นี่: stats.stackexchange.com/questions/20452/ นอกจากนี้คุณควรยอมรับคำตอบอย่างใดอย่างหนึ่งโดยคลิกเครื่องหมายถูกที่อยู่ถัดจาก หนึ่งในนั้น.
gung - Reinstate Monica

10

ผลลัพธ์จากเอาต์พุต aov จะให้ความน่าจะเป็นของคุณโดยพิจารณาจากผลรวมของช่องสี่เหลี่ยม Type 1 นี่คือเหตุผลที่ผลการโต้ตอบเหมือนกันและผลกระทบหลักแตกต่างกัน

หากคุณใช้ความน่าจะเป็นโดยพิจารณาจากผลรวมของช่องสี่เหลี่ยมประเภท 3 แล้วพวกเขาจะจับคู่กับผลการถดถอยเชิงเส้น

library(car)
Anova(aov(score~group*moderator),type=3)

5
แบบจำลองเชิงเส้นและ ANOVA จะเท่ากันเมื่อแบบจำลองกำลังทดสอบสมมติฐานเดียวกันและเมื่อการกำหนดพารามิเตอร์ของปัจจัยนั้นเท่ากัน เรียกว่า "Type I" และ "Type III" ผลรวมเป็นกำลังสองเป็นเพียงการทดสอบของสมมติฐานที่แตกต่างกัน (ผลกระทบของผลบวกของสี่เหลี่ยมต่อเนื่องกับผลรวมเล็กน้อยของสี่เหลี่ยม) ANOVA มีแนวโน้มที่จะซ่อนการตัดสินใจบางอย่างที่นำมาใช้ในหลายแพ็คเกจ - ความจริงที่ทำให้ฉันเชื่อว่าจริง ๆ แล้วการตั้งค่าและการทดสอบสมมติฐานที่น่าสนใจผ่านการกำหนดพารามิเตอร์ตัวประกอบและการเปรียบเทียบแบบจำลองใน GLM
Brett

+1 ฉันคิดว่าคุณพิมพ์ผิด lm ใช้ Type 1 SS และ aov กำลังใช้ Type 3 SS
gung - Reinstate Monica

2
Type III (Marginal) Sums of Squares ถูกใช้โดยปริยายใน lm AOV จะใช้ Type I (Sequential) เป็นค่าเริ่มต้น ผลลัพธ์ LM เป็นค่าคงที่ในการสั่งซื้อในขณะที่ผลลัพธ์ aov ขึ้นอยู่กับลำดับของปัจจัย
Brett

ฉันคิดว่าทั้ง lm และ aov ใช้ type I เป็นค่าเริ่มต้นดังนั้นการใช้ทุน A Anova () สำหรับ type II และ III
Matt Albrecht

6
โดยทั่วไปแล้วAnova(..., type=3)จะไม่ให้ type III SS ที่ถูกต้องแก่คุณเว้นแต่คุณจะสลับจากการรักษาที่แตกต่าง (ค่าเริ่มต้นใน R) เพื่อให้เกิดการเข้ารหัสสำหรับปัจจัยที่ไม่ได้เรียงลำดับ ( options(contrasts=c("contr.sum", "contr.poly"))) หรือรหัสความคมชัดรวมเป็นศูนย์ (เช่น Helmert) นี้จะกลายเป็นที่ชัดเจนเมื่อคุณมีขนาดไม่สมดุลมือถือและอื่น ๆ Anova()กว่าสองกลุ่มและยังเป็นที่กล่าวถึงในหน้าความช่วยเหลือสำหรับ
caracal

-2

ความแตกต่างที่สำคัญระหว่างการถดถอยเชิงเส้นและ ANOVA คือใน ANOVA ตัวแปรการทำนายจะแยกกัน (นั่นคือพวกเขามีระดับที่แตกต่างกัน) ในขณะที่การถดถอยเชิงเส้นตัวแปรทำนายมีความต่อเนื่อง


3
สิ่งนี้ไม่เป็นความจริง
Michael R. Chernick

ฉันอ่านมันที่ไหนสักแห่งบนอินเทอร์เน็ต คุณช่วยอธิบายความแตกต่างที่สำคัญได้ไหม ฉันเป็นมือใหม่
vivek
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.