วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA


45

คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)?

ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้:

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

การใช้งานฟังก์ชั่น anova จะช่วยให้การเปรียบเทียบในภายหลังหวังว่าดังนั้นโปรดเพิกเฉยต่อความแปลกของมันที่นี่ ผลลัพธ์คือ:

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

ทีนี้สมมติว่าฉันสงสัยว่าระดับเริ่มต้นของไนโตรเจนอนินทรีย์ในดินซึ่งฉันไม่สามารถควบคุมได้อาจส่งผลต่อการเจริญเติบโตของพืชเช่นกัน ฉันไม่ได้สนใจผลกระทบนี้เป็นพิเศษ แต่ต้องการที่จะอธิบายถึงรูปแบบที่เกิดขึ้น จริงๆแล้วความสนใจหลักของฉันอยู่ที่ผลของความหนาแน่นของแมงมุม (สมมติฐาน: ความหนาแน่นของแมงมุมที่เพิ่มขึ้นทำให้เกิดการเติบโตของพืชเพิ่มขึ้น - น่าจะมาจากการลดแมลงที่กินพืชเป็นอาหาร แต่ฉันทดสอบเฉพาะผลไม่ใช่กลไก) ฉันสามารถเพิ่มผลของอนินทรีย์ N ในการวิเคราะห์ของฉัน

เพื่อประโยชน์ของคำถามของฉันลองทำเป็นว่าฉันทดสอบความหนาแน่นของการโต้ตอบ * อนินทรีย์และมันไม่สำคัญดังนั้นฉันจึงลบออกจากการวิเคราะห์และรันเอฟเฟกต์หลักต่อไปนี้:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

ตอนนี้มันสร้างความแตกต่างไม่ว่าฉันจะใช้ Type I หรือ Type II SS (ฉันรู้ว่าบางคนคัดค้านข้อกำหนด Type I & II ฯลฯ แต่ได้รับความนิยมของ SAS มันเป็นทางลัดที่ง่าย) R anova {stats} ใช้ Type I เป็นค่าเริ่มต้น ฉันสามารถคำนวณ Type II SS, F และ P สำหรับความหนาแน่นโดยการกลับคำสั่งของเอฟเฟกต์หลักของฉันหรือฉันสามารถใช้แพ็คเกจ "car" ของ Dr. John Fox (คู่หูกับการถดถอยแบบประยุกต์) ฉันชอบวิธีหลังเนื่องจากง่ายกว่าสำหรับปัญหาที่ซับซ้อนมากขึ้น

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

ความเข้าใจของฉันคือสมมุติฐานประเภท II นั้นน่าจะเป็น "ไม่มีผลเชิงเส้นตรงของ x1 ต่อ y1 เนื่องจากผลของ (ถือค่าคงที่?) x2" และเหมือนกันสำหรับ x2 ที่ให้ x1 ฉันเดาว่านี่เป็นที่ที่ฉันสับสน สมมติฐานที่ทดสอบโดย ANOVA ใช้วิธี Type I (sequential) เหนือกว่าสมมติฐานที่ใช้วิธี type II อย่างไร

ในความเป็นจริงข้อมูลของฉันมีความซับซ้อนมากกว่านี้เล็กน้อยเพราะฉันวัดการวัดของการเจริญเติบโตของพืชรวมถึงการเปลี่ยนแปลงของธาตุอาหารและการสลายตัวของเศษซากพืช การวิเคราะห์ที่แท้จริงของฉันเป็นสิ่งที่ชอบ:

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

คำตอบ:


71

nn11n12n21n22R=0.1Rคือ 'สำคัญ' นี่คือประชากรทั้งหมดที่คุณใส่ใจ) ปัญหาของปัจจัยที่มีความสัมพันธ์กันคือว่ามีผลบวกของกำลังสองที่เกี่ยวข้องกับทั้ง A และ B เมื่อคำนวณ ANOVA (หรือการถดถอยเชิงเส้นอื่น ๆ ) เราต้องการแบ่งผลบวกของกำลังสอง พาร์ทิชันทำให้ผลรวมของสี่เหลี่ยมทั้งหมดเป็นหนึ่งเดียวของหลายชุดย่อย (ตัวอย่างเช่นเราอาจต้องการแบ่ง SS ออกเป็น A, B และข้อผิดพลาด) อย่างไรก็ตามเนื่องจากปัจจัยของคุณ (ยังมีเพียง A และ B ที่นี่) ไม่ใช่ orthogonal จึงไม่มีพาร์ติชันที่ไม่ซ้ำกันของ SS เหล่านี้ อันที่จริงมีพาร์ติชั่นได้มากและถ้าคุณเต็มใจที่จะแบ่งเอสเอสของคุณเป็นเศษส่วน (เช่น "ฉันจะใส่. 5 ลงในถังขยะนี้และ. 5 ลงในพาร์ติชั่นนั้น") มีพาร์ติชั่นไม่สิ้นสุด วิธีที่จะมองเห็นสิ่งนี้คือการจินตนาการถึงสัญลักษณ์ MasterCard: สี่เหลี่ยมผืนผ้าหมายถึง SS ทั้งหมดและแต่ละวงกลมแทน SS ที่มีสาเหตุมาจากปัจจัยนั้น แต่สังเกตว่ามีการทับซ้อนกันระหว่างวงกลมที่อยู่ตรงกลาง ไปที่วงกลมใดวงหนึ่ง

ป้อนคำอธิบายรูปภาพที่นี่

คำถามคือเราจะเลือกพาร์ทิชัน 'ถูกต้อง' จากความเป็นไปได้ทั้งหมดเหล่านี้ได้อย่างไร ลองนำการโต้ตอบกลับมาและพูดคุยถึงความเป็นไปได้:

ฉันพิมพ์ SS

  • เอสเอส (A)
  • เอสเอส (B | A)
  • เอสเอส (A * B | A, B)

SS ประเภทที่สอง:

  • เอสเอส (A | B)
  • เอสเอส (B | A)
  • เอสเอส (A * B | A, B)

SS ประเภทที่สาม:

  • เอสเอส (A | B, A * B)
  • เอสเอส (B | A, A * B)
  • เอสเอส (A * B | A, B)

สังเกตว่าความเป็นไปได้ต่าง ๆ เหล่านี้ทำงานอย่างไร เฉพาะ Type I SS เท่านั้นที่ใช้ SS เหล่านั้นในส่วนที่ทับซ้อนกันระหว่างวงกลมในสัญลักษณ์ MasterCard นั่นคือ SS ที่สามารถนำมาประกอบกับ A หรือ B ได้มาจากหนึ่งในนั้นเมื่อคุณใช้ type I SS (โดยเฉพาะอย่างยิ่งที่คุณป้อนลงในโมเดลก่อน) ในทั้งสองวิธีการอื่น ๆ ที่ทับซ้อนกัน SS ไม่ได้ใช้ที่ทั้งหมด ดังนั้นประเภท I SS ให้แก่ A ทั้งหมด SS ที่เป็นของ A (รวมถึงที่อาจถูกนำมาประกอบกับที่อื่น) จากนั้นให้ B แก่SS ทั้งหมดที่เหลือซึ่งเป็นของ B แล้วให้ A * B ทั้งหมด ของที่เหลือSS ที่เป็นของ A * B และปล่อย overs-left ที่ไม่สามารถนำมาประกอบกับอะไรก็ได้ที่เกิดจากคำที่ผิดพลาด

ประเภทที่สามเอสเอสเพียง แต่ช่วยให้ผู้ที่เอสเอสที่มีเอกลักษณ์ที่เป็นของเหมือนกันก็เพียง แต่ให้ไป B และการมีปฏิสัมพันธ์เหล่านั้นเอสเอสที่ไม่ซ้ำกันส่วนที่เป็นของพวกเขา คำผิดพลาดจะได้รับ SS ที่ไม่สามารถนำมาประกอบกับปัจจัยใด ๆ ได้ ดังนั้น SS ที่ 'คลุมเครือ' ที่อาจมีสาเหตุมาจากความเป็นไปได้ 2 อย่างหรือมากกว่านั้นไม่ได้ถูกใช้ หากคุณรวม type III SS ในตาราง ANOVA คุณจะสังเกตเห็นว่าพวกเขาไม่เท่ากับ SS ทั้งหมด กล่าวอีกนัยหนึ่งการวิเคราะห์นี้จะต้องผิด แต่ทำในลักษณะอนุรักษ์นิยมแบบ epistemically นักสถิติหลายคนพบวิธีการนี้อย่างมหันต์อย่างไรก็ตามหน่วยงานระดมทุนของรัฐบาล (ฉันเชื่อว่าองค์การอาหารและยา) ต้องการการใช้งานของพวกเขา

วิธี Type II มีวัตถุประสงค์เพื่อจับภาพสิ่งที่อาจคุ้มค่ากับแนวคิดที่อยู่เบื้องหลัง Type III แต่จะช่วยลดผลกระทบที่เกิดขึ้นได้ โดยเฉพาะมันจะปรับ SS สำหรับ A และ B สำหรับกันและกันไม่ใช่การโต้ตอบ อย่างไรก็ตามในทางปฏิบัติ type II SS นั้นไม่เคยใช้ คุณจะต้องรู้เกี่ยวกับสิ่งเหล่านี้และเข้าใจซอฟต์แวร์ของคุณมากพอที่จะได้รับการประเมินเหล่านี้และนักวิเคราะห์ที่มักคิดว่านี่เป็นสองชั้น

มี SS หลายประเภท (ฉันเชื่อว่า IV และ V) พวกเขาได้รับการแนะนำในช่วงปลายยุค 60 เพื่อรับมือกับสถานการณ์บางอย่าง แต่มันแสดงให้เห็นในภายหลังว่าพวกเขาไม่ได้ทำในสิ่งที่คิด ดังนั้น ณ จุดนี้พวกเขาเป็นเพียงเชิงอรรถเชิงประวัติศาสตร์

ในกรณีที่คำถามเหล่านี้ตอบคำถามคุณมีสิทธิ์ในคำถามของคุณอยู่แล้ว:

  • การประมาณโดยใช้ type I SS บอกคุณว่า A สามารถอธิบายความแปรปรวนใน Y ได้มากเพียงใด B สามารถอธิบายความแปรปรวนส่วนที่เหลือได้มากน้อยเพียงใด B ที่สามารถอธิบายความแปรปรวนส่วนที่เหลือที่เหลือได้โดยการโต้ตอบและอื่น ๆในการสั่งซื้อ
  • ประมาณการตามประเภท III เอสเอสบอกคุณเท่าใดของความแปรปรวนตกค้างใน Y สามารถนำมาใช้โดยหลังจากที่มีการคิดทุกอย่างอื่นและวิธีการมากของความแปรปรวนตกค้างใน Y สามารถคิดโดย B หลังจากที่มีการคิดทุกอย่างอื่น เช่นกันและอื่น ๆ (โปรดทราบว่าทั้งคู่ไปเป็นคนแรกและคนสุดท้ายพร้อมกันหากสิ่งนี้เหมาะสมกับคุณและสะท้อนคำถามการวิจัยของคุณอย่างถูกต้องให้ใช้ type III SS)

2
ขอบคุณสำหรับคำตอบที่มีประโยชน์มาก อีกด้านหนึ่งที่ฉันสับสนคือถ้า "การประมาณค่าโดยใช้ประเภทที่ฉัน SS บอกคุณว่า A สามารถอธิบายความแปรปรวนใน Y ได้มากแค่ไหน A สามารถอธิบายความแปรปรวนส่วนที่เหลือได้เท่าใด B ที่เหลืออยู่เท่าใด ความแปรปรวนสามารถอธิบายได้โดยการโต้ตอบและตามลำดับ "แล้วเหตุใดสถิติจึงเชื่อมโยงกับการเปลี่ยนแปลงเมื่อเพิ่มตัวแปรเพิ่มเติม เป็นเพราะการทดสอบจะขึ้นอยู่กับ SS (A) / SS (ข้อผิดพลาด) และข้อผิดพลาดเป็นฟังก์ชั่นของคำศัพท์ทั้งหมดในรูปแบบหรือไม่ ฉันกำลังคิดเรื่องนี้ถูกต้องหรือไม่
djhocking

1
โดย "สถิติที่เกี่ยวข้องกับ A" ฉันตีความให้คุณหมายถึงค่า F และ p-value สำหรับเอฟเฟกต์หลักของ A ค่า F สำหรับ A คืออัตราส่วนของ Mean Square สำหรับ A (เช่น SSA / dfA) ต่อ ข้อผิดพลาดของ MS เมื่อคุณเพิ่มปัจจัยเพิ่มเติม SS จะถูกนำมาจากคำที่ผิดพลาดและมอบให้กับปัจจัยเหล่านั้น โดยทั่วไปนี่หมายความว่าข้อผิดพลาดของ MS ลดลงและทำให้อัตราส่วนเพิ่มขึ้น ดังนั้นค่า F สำหรับ A จะใหญ่ขึ้นและค่า p จะเล็กลง เพราะองศาอิสระเปลี่ยนไปมันอาจซับซ้อนกว่านี้ แต่นั่นคือส่วนสำคัญของมัน
gung - Reinstate Monica

โอ๊ะฉันหมายถึง MS (A) / MSE สำหรับสถิติ F อย่างไรก็ตามคำตอบของคุณสมบูรณ์แบบขอบคุณอีกครั้งสำหรับความช่วยเหลือของคุณ!
djhocking

ฉันอยากรู้อยากเห็นเกี่ยวกับรายละเอียดของการตีความเมื่อใช้ประเภทที่ 1 ในกรณีของฉันความหนาแน่นเป็นตัวแปรที่ฉันสนใจเพียงอย่างเดียวและเป็นคนเดียวที่ฉันทดลองใช้ อย่างไรก็ตามโชคร้ายที่ความหนาแน่นนั้นไม่มีนัยสำคัญในตัวของมันเองหรือหลังจากการพิจารณาตัวแปรที่น่าสนใจอีกสองตัวของฉัน (Npredators, inorganicN ใน type II หรือ III) แต่เนื่องจากอนินทรีย์ N อธิบายการแปรผันของตัวแปรตามจำนวนหนึ่งเมื่อฉันเพิ่มเป็นตัวแปรลำดับที่ 3 ทำให้อีก 2 มีความสำคัญสูง ดังนั้นความหนาแน่นจริง ๆ มีผลกระทบสำคัญกับ Y หรือไม่? มันสมเหตุสมผลหรือไม่
djhocking

2
@JonBonJovi การเปรียบเทียบ MasterCard มีเพียง 2 ปัจจัยเท่านั้น หากคุณต้องการ 2 ปัจจัยบวกกับการมีปฏิสัมพันธ์คุณจะต้องมี 3 พื้นที่ที่ทับซ้อนกันบ้าง เป็นไปได้ที่จะวาดไดอะแกรมออยเลอร์ด้วย 3 ด้าน แต่ฉันเพิ่งใช้สัญลักษณ์ MasterCard เพื่อความเรียบง่าย สำหรับการโต้ตอบให้จินตนาการถึงวงกลมที่ 3 ที่ซ้อนทับ 2 แรก (เช่นอาจอยู่กึ่งกลางจากขวาไปซ้าย แต่ส่วนใหญ่อยู่เหนือผู้อื่น) แล้วทั้งหมดของวงกลม (เอสเอส) จะไปที่ A, B ทุกอย่างในที่ไม่ซ้อนทับกันไป B, และทุกอย่างในB ที่ไม่ทับซ้อน * ทั้งหรือ B ไปปฏิสัมพันธ์
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.