จะหาคำที่ผิดพลาดใน factorial ANOVA ได้อย่างไร


13

เป็นคำถามพื้นฐานที่น่าสนใจมากเกี่ยวกับ ANOVA แบบหลายปัจจัย สมมติว่าการออกแบบสองทางที่เราทดสอบทั้งเอฟเฟกต์หลัก A, B และการโต้ตอบ A: B เมื่อทดสอบเอฟเฟกต์หลักสำหรับ A กับ type I SS เอฟเฟกต์ SS จะคำนวณเป็นผลต่างโดยที่R S S ( 1 )เป็นผลรวมข้อผิดพลาดที่เหลือของกำลังสองสำหรับ โมเดลที่มีเพียงจุดตัดและR S S ( A ) RSS สำหรับโมเดลที่มีปัจจัย A เพิ่ม คำถามของฉันเกี่ยวกับตัวเลือกสำหรับคำที่ผิดพลาด:RSS(1)RSS(A)RSS(1)RSS(A)

คุณจะแสดงให้เห็นว่าคำว่าข้อผิดพลาดสำหรับการทดสอบนี้มักจะคำนวณจาก RSS ของรุ่นเต็ม A + B + A: B ที่มีทั้งผลกระทบหลักและการมีปฏิสัมพันธ์?

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B

... เมื่อเทียบกับการใช้คำผิดจากโมเดลที่ไม่ จำกัด จากการเปรียบเทียบจริง (RSS จากเอฟเฟกต์หลักในกรณีข้างต้น):

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

สิ่งนี้สร้างความแตกต่างเนื่องจากข้อผิดพลาดจากแบบจำลองเต็มรูปแบบมักจะมีขนาดเล็กกว่าคำผิดพลาดจากแบบจำลองที่ไม่ จำกัด ในการเปรียบเทียบ ดูเหมือนว่าตัวเลือกสำหรับคำศัพท์ข้อผิดพลาดนั้นค่อนข้างที่จะกำหนดเองการสร้างห้องสำหรับการเปลี่ยนแปลงค่า p ที่ต้องการเพียงแค่เพิ่ม / ลบปัจจัยที่ไม่น่าสนใจจริงๆ แต่เปลี่ยนเงื่อนไขข้อผิดพลาดต่อไป

ในตัวอย่างต่อไปนี้ค่า F สำหรับการเปลี่ยนแปลง A ขึ้นอยู่กับทางเลือกสำหรับรุ่นเต็มแม้ว่าการเปรียบเทียบจริงสำหรับเอฟเฟกต์ SS ยังคงเหมือนเดิม

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

คำถามเดียวกันนี้ใช้กับ Type II SS และโดยทั่วไปกับสมมติฐานเชิงเส้นทั่วไปเช่นกับการเปรียบเทียบแบบจำลองระหว่างแบบ จำกัด และแบบจำลองที่ไม่ จำกัด ภายในแบบจำลองเต็มรูปแบบ (สำหรับ Type III SS โมเดลที่ไม่ จำกัด นั้นจะเป็นแบบเต็มเสมอดังนั้นคำถามจะไม่เกิดขึ้นที่นั่น)


Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

IV1A~ 1~ IV1 + 1A

เฮ้ @caracal ยินดีที่ได้เห็นคำตอบเก่า ๆ ที่ได้รับในทันที! :-) ไชโย
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


4

นี่เป็นคำถามที่เก่ามากและฉันเชื่อว่าคำตอบของ @ gung นั้นดีมาก (+1) แต่เนื่องจากมันไม่ได้น่าเชื่อถืออย่างสิ้นเชิงสำหรับ @caracal และเนื่องจากฉันไม่ได้ปฏิบัติตามความซับซ้อนทั้งหมดอย่างสมบูรณ์ฉันจึงต้องการให้ร่างที่เรียบง่ายแสดงให้เห็นว่าฉันเข้าใจปัญหานี้อย่างไร


พิจารณา ANOVA แบบสองทาง (ปัจจัย A มีสามระดับ, ปัจจัย B มีสองระดับ) โดยทั้งสองปัจจัยมีความสำคัญมาก:

แฟคทอเรียล ANOVA ผลบวกของกำลังสอง

SS สำหรับปัจจัย A นั้นใหญ่มาก SS สำหรับ factor B นั้นเล็กกว่ามาก แต่จากตัวเลขด้านบนเป็นที่ชัดเจนว่าปัจจัย B นั้นมีความสำคัญมากเช่นกัน

ข้อผิดพลาด SS สำหรับโมเดลที่มีปัจจัยทั้งสองนั้นแสดงโดยหนึ่งในหกของ Gaussians และเมื่อเปรียบเทียบ SS สำหรับปัจจัย B กับข้อผิดพลาด SS นี้การทดสอบจะสรุปว่าปัจจัย B มีความสำคัญ

Error SS สำหรับรุ่นที่มีเพียง factor B แต่มีขนาดใหญ่มาก! การเปรียบเทียบ SS สำหรับ factor B กับข้อผิดพลาดขนาดใหญ่ SS นี้จะส่งผลให้ B ดูเหมือนจะไม่สำคัญ ซึ่งเห็นได้ชัดว่าไม่ใช่กรณี

นั่นคือเหตุผลที่เหมาะสมที่จะใช้ข้อผิดพลาด SS จากโมเดลเต็ม


2

อัปเดต: เพื่อชี้แจงบางประเด็นที่ฉันทำผ่านที่นี่ฉันได้เพิ่มลิงก์ไปยังสถานที่ที่ฉันพูดถึงแนวคิดที่เกี่ยวข้องอย่างครบถ้วนมากขึ้น


RSSASSAMSAMSA+B+AB

RSSfullMSA+B+AB>MSA+BSSAB=14.19dfR. อย่างไรก็ตามการกำจัดปัจจัยจากตัวแบบที่ไม่มีนัยสำคัญเพื่อให้ได้รับข้อความแสดงข้อผิดพลาดที่ถูกต้องเทียบเท่ากับขั้นตอนการค้นหาแบบอัตโนมัติแม้ว่าคุณจะไม่มีซอฟต์แวร์ของคุณก็ตาม คุณควรรู้ว่ามีปัญหามากมายในการทำเช่นนี้ ปัญหาเหล่านั้นและขั้นตอนทางเลือกที่จะกล่าวถึงที่อื่น ๆ ใน CV 3

หัวข้อสุดท้ายเกี่ยวข้องกับ SS ประเภทต่าง ๆ ประการแรกการใช้ SS ประเภทต่าง ๆ ไม่ได้ช่วยให้คุณไม่จำเป็นต้องมีเหตุผลเชิงตรรกะในการวิเคราะห์ของคุณ แต่ยิ่งไปกว่านั้น Type I - III SS เกี่ยวข้องกับปัญหาอื่น ในตัวอย่างของคุณฉันรวบรวมปัจจัยของคุณเป็นมุมฉากนั่นคือคุณได้ทำการทดลองที่คุณได้รับค่า n เท่ากับการรวมกันของระดับปัจจัย อย่างไรก็ตามหากคุณทำการศึกษาเชิงสังเกตการณ์หรือหากคุณมีปัญหาการออกกลางคันปัจจัยของคุณจะมีความสัมพันธ์ ความหมายของสิ่งนั้นคือไม่มีวิธีที่ไม่เหมือนใครในการแบ่ง SS และดังนั้นจึงไม่มีคำตอบเฉพาะสำหรับการวิเคราะห์ของคุณในการผลิต ในคำอื่น ๆ ประเภทต่างๆของเอสเอสจะทำอย่างไรกับความเป็นไปได้ที่แตกต่างกันnumeratorsสำหรับการทดสอบ F ของคุณเมื่อปัจจัยของคุณมีความสัมพันธ์ที่ 4

1. โปรดทราบว่าสำหรับตัวแบบหลายระดับนั้นปัจจัยหนึ่งสามารถถูกทำให้เป็นทฤษฎีเพื่อรวมความแปรปรวนจากปัจจัยอื่น ๆ ขึ้นอยู่กับวิธีการระบุแบบจำลอง ฉันกำลังพูดถึง ANOVA สามัญที่นี่ซึ่งเป็นสิ่งที่คุณดูเหมือนจะถามเกี่ยวกับ
2. ดู: การเพิ่ม IV อันดับ 2 จะทำให้ IV อันดับ 1 มีความหมายได้อย่างไร?
3. ดู: อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ
4. ดู: วิธีตีความ ANOVA และ MANOVA แบบ I (เรียงลำดับ) ได้อย่างไร


1
BA:B

1
+1 และฉันเพิ่งโพสต์คำตอบพยายามให้ภาพประกอบในวรรคแรกของคุณ
อะมีบาพูดว่า Reinstate Monica

0

เหตุผลก็คือปัจจัย A กำลังอธิบายถึงเปอร์เซ็นต์ความแปรปรวนที่ไม่ได้อธิบายในรูปแบบ A + B ที่ใหญ่กว่าเมื่อเทียบกับแบบจำลอง A เนื่องจากปัจจัย B อธิบายส่วนที่สำคัญ (และ 'ลบ' ออกจากการวิเคราะห์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.