ทำไม ANOVA จึงถูกสอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น?


91

ANOVA เทียบเท่ากับการถดถอยเชิงเส้นด้วยการใช้ตัวแปรจำลองที่เหมาะสม ข้อสรุปยังคงเหมือนเดิมไม่ว่าคุณจะใช้ ANOVA หรือการถดถอยเชิงเส้น

ในแง่ของความเท่าเทียมมีเหตุผลใดที่ใช้ ANOVA แทนการถดถอยเชิงเส้น?

หมายเหตุ: ฉันสนใจฟังเหตุผลทางเทคนิคเป็นพิเศษสำหรับการใช้ ANOVA แทนการถดถอยเชิงเส้น

แก้ไข

นี่คือตัวอย่างหนึ่งที่ใช้การวิเคราะห์ความแปรปรวนแบบทางเดียว สมมติว่าคุณต้องการทราบว่าความสูงเฉลี่ยของชายและหญิงเหมือนกันหรือไม่ เพื่อทดสอบสมมติฐานของคุณคุณจะต้องรวบรวมข้อมูลจากตัวอย่างแบบสุ่มของชายและหญิง (พูด 30 ข้อ) และทำการวิเคราะห์ความแปรปรวนร่วม (เช่นผลรวมของกำลังสองสำหรับเพศและข้อผิดพลาด) เพื่อตัดสินว่ามีผลกระทบหรือไม่

คุณสามารถใช้การถดถอยเชิงเส้นเพื่อทดสอบสิ่งต่อไปนี้:

กำหนด: หากผู้ตอบเป็นเพศชายและ0 เป็นอย่างอื่น ความสูง= สกัดกั้น+ β เพศ+ ข้อผิดพลาด โดยที่: ข้อผิดพลาดN ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

β=0


2
ถ้าฉันไม่ผิดการถดถอยเชิงเส้นคือการประมาณค่าสัมประสิทธิ์ที่กำหนดแผนที่เชิงเส้นที่ดีจาก X ถึง Y ANOVA เป็นการทดสอบเพื่อทราบว่ามีความแตกต่างอย่างมีนัยสำคัญใน X เมื่อ Y รับค่าที่แตกต่างกันสองค่า คุณช่วยอธิบายเราได้ไหมว่าทำไมพวกเขาถึงคิดเช่นเดียวกัน
robin girard

28
ANOVA สามารถถูกมองว่าเป็น "syntactic sugar" สำหรับกลุ่มย่อยพิเศษของตัวแบบการถดถอยเชิงเส้น ANOVA มีการใช้อย่างสม่ำเสมอโดยนักวิจัยที่ไม่ได้เป็นนักสถิติโดยการฝึกอบรม ตอนนี้พวกเขาเป็น "สถาบัน" และมันยากที่จะแปลงพวกเขากลับไปใช้ตัวแทนทั่วไป ;-) เพิ่มเติม
suncoolsu

3
βββ

คำตอบ:


55

ในฐานะนักเศรษฐศาสตร์การวิเคราะห์ความแปรปรวน (ANOVA) ได้รับการสอนและเข้าใจในความสัมพันธ์กับการถดถอยเชิงเส้น (เช่นในหลักสูตร Aของเศรษฐศาสตร์ของ Arthur Goldberger ) นักเศรษฐศาสตร์ / เศรษฐมิติมักมองว่า ANOVA นั้นไม่น่าสนใจและชอบที่จะย้ายไปยังแบบจำลองการถดถอยโดยตรง จากมุมมองของแบบจำลองเชิงเส้น (หรือแบบเชิงเส้นทั่วไป) ANOVA จะกำหนดค่าสัมประสิทธิ์เป็นชุดโดยแต่ละชุดที่สอดคล้องกับ "แหล่งที่มาของการเปลี่ยนแปลง" ในคำศัพท์ ANOVA

โดยทั่วไปคุณสามารถทำซ้ำการอนุมานที่คุณจะได้รับจาก ANOVA โดยใช้การถดถอย แต่ไม่ใช่ OLS regression เสมอ จำเป็นต้องใช้แบบจำลองหลายระดับสำหรับการวิเคราะห์โครงสร้างข้อมูลแบบลำดับชั้นเช่น "การออกแบบแบบแยกส่วน" ซึ่งผลระหว่างกลุ่มจะถูกเปรียบเทียบกับข้อผิดพลาดระดับกลุ่มและผลกระทบภายในกลุ่มจะเปรียบเทียบกับข้อผิดพลาดระดับข้อมูล กระดาษของ Gelman [1] มีรายละเอียดที่ดีเกี่ยวกับปัญหานี้และให้เหตุผลว่า ANOVA เป็นเครื่องมือทางสถิติที่สำคัญที่ควรได้รับการสอนเพื่อประโยชน์ของตนเอง

โดยเฉพาะอย่างยิ่ง Gelman ให้เหตุผลว่า ANOVA เป็นวิธีการทำความเข้าใจและสร้างแบบจำลองหลายระดับ ดังนั้น ANOVA จึงไม่ใช่ทางเลือกสำหรับการถดถอย แต่เป็นเครื่องมือสำหรับการสรุปการอนุมานมิติสูงที่ซับซ้อนและการวิเคราะห์ข้อมูลเชิงสำรวจ

Gelman เป็นนักสถิติที่ได้รับการเคารพและควรให้ความเชื่อถือกับมุมมองของเขา อย่างไรก็ตามงานเชิงประจักษ์เกือบทั้งหมดที่ฉันทำจะได้รับการบริการที่เท่าเทียมกันจากการถดถอยเชิงเส้นและดังนั้นฉันจึงตกลงไปในค่ายที่ดูมันอย่างไร้จุดหมายสักหน่อย บางสาขาวิชาที่มีการออกแบบการศึกษาที่ซับซ้อน (เช่นจิตวิทยา) อาจพบว่า ANOVA มีประโยชน์

[1] Gelman, A. (2005) การวิเคราะห์ความแปรปรวน: ทำไมจึงมีความสำคัญมากกว่าที่เคย (ด้วยการสนทนา) บันทึกสถิติ 33, 1–53 ดอย: 10.1214 / 009053604000001048


1
ขอบคุณสำหรับการอ้างอิง Gelman ฉันจะอ่านกระดาษของเขา แต่เราไม่สามารถวิเคราะห์แบบจำลองหลายระดับโดยใช้โอกาสสูงสุดแบบคลาสสิกได้หรือไม่ ฉันยอมรับว่า OLS ไม่มีประสิทธิภาพ / ไม่เหมาะสมสำหรับแบบจำลองหลายระดับ

3
@Sriantant - มีหลายวิธีในการจัดการกับข้อมูลหลายระดับและ Gelman คือ "ราชา" ในสาขานี้ ประเด็นของเขาคือ ANOVA เป็นวิธีการที่เรียบง่าย / ชัดเจนในการรวบรวมคุณสมบัติที่สำคัญของโครงสร้างข้อมูลที่ซับซ้อนและเป็นลำดับชั้นหรือการออกแบบการศึกษาและ ANOVA เป็นวิธีที่เรียบง่าย / ชัดเจนในการนำเสนอผลลัพธ์ที่สำคัญ ในแง่นี้มันมีบทบาทเสริมหรือสำรวจ
Graham Cookson

1
+1 สำหรับคำตอบที่ชัดเจนดี ย่อหน้าที่ 3 เป็นสิ่งที่ฉันได้รับการสอนในระดับปริญญาตรีชีววิทยาโดยเน้นความสะดวกในการรวมตัวแปรอิสระอย่างต่อเนื่องและเด็ดขาดในกรอบการวิเคราะห์ความแปรปรวน
Freya Harrison

23

ฉันคิดว่าย่อหน้าที่สองของ Graham เป็นหัวใจของเรื่องนี้ ฉันสงสัยว่ามันไม่ใช่ด้านเทคนิคมากกว่าในอดีตอาจเป็นเพราะอิทธิพลของ " วิธีการทางสถิติสำหรับนักวิจัย " และความสะดวกในการสอน / การใช้เครื่องมือสำหรับผู้ที่ไม่ใช่นักสถิติในการวิเคราะห์เชิงทดลองที่เกี่ยวข้องกับปัจจัยที่แยกจากกัน และเครื่องมือที่เกี่ยวข้อง ในสถิติ ANOVA มักสอนเป็นกรณีพิเศษของการถดถอย (ฉันคิดว่านี่คล้ายกับว่าทำไมชีวสถิติจึงเต็มไปด้วย "การทดสอบ" ที่มีบาร์มากมายแทนที่จะเน้นการสร้างแบบจำลอง)


14

ฉันจะบอกว่าบางท่านกำลังใช้คำว่าถดถอยเมื่อคุณควรใช้โมเดลเชิงเส้นทั่วไป ฉันคิดว่าการถดถอยเป็น glm ที่เกี่ยวข้องกับ covariates อย่างต่อเนื่อง เมื่อโควาเรียตต่อเนื่องถูกรวมเข้ากับตัวแปรจำลองที่ควรจะเรียกว่าการวิเคราะห์ความแปรปรวนร่วม หากใช้เฉพาะตัวแปรจำลองเท่านั้นเราอ้างถึงรูปแบบพิเศษของ glm เป็นการวิเคราะห์ความแปรปรวน ฉันคิดว่าการวิเคราะห์ความแปรปรวนมีความหมายที่แตกต่างที่สองเป็นขั้นตอนสำหรับการทดสอบสัมประสิทธิ์ที่สำคัญใน glm โดยใช้การสลายตัวของความแปรปรวนเป็นส่วนประกอบคำแบบจำลองและองค์ประกอบข้อผิดพลาด


2
(+1) ฉันยังสังเกตเห็นคำศัพท์ "ถดถอย" ที่คลุมเครือในการอภิปรายทันที
Stéphane Laurent

1
(+1) GLM อาจเป็นวิธีที่ดีที่สุดในการคลี่คลายความหมายที่แตกต่างกัน ควรสังเกตว่าในประวัติศาสตร์ของขั้นตอนการคำนวณ ANOVA นั้นถูกใช้เพื่อปิดบังความสัมพันธ์ระหว่าง OLS และ ANOVA ระบบการตั้งชื่ออาจมีเหตุผลด้วยเหตุผลทางประวัติศาสตร์
jank

10

ANOVA สามารถใช้กับตัวแปรอธิบายอย่างชัดเจน (ปัจจัย) ที่มีค่ามากกว่า 2 ค่า (ระดับ) และให้การทดสอบขั้นพื้นฐานว่าการตอบสนองเฉลี่ยนั้นเหมือนกันสำหรับทุกค่า สิ่งนี้จะช่วยหลีกเลี่ยงปัญหาการถดถอยในการทดสอบ t-test แบบหลายคู่ระหว่างระดับเหล่านั้น:

  • การทดสอบหลายอย่างในระดับนัยสำคัญคงที่ 5% จะทำให้ประมาณ 5% ของพวกเขาให้ผลที่ผิด
  • การทดสอบเหล่านี้ไม่ได้ถูกแยกจากกัน การเปรียบเทียบระดับ A กับ B นั้นเชื่อมโยงกับการเปรียบเทียบ A กับ C เนื่องจากข้อมูลของ A นั้นใช้ในการทดสอบทั้งสองแบบ

มันจะดีกว่าที่จะใช้ความแตกต่างสำหรับชุดค่าผสมที่แตกต่างกันในระดับปัจจัยที่คุณต้องการทดสอบ


1
α=.05

7
(3) คำตอบของคุณแสดงถึงปัญหาของการเปรียบเทียบหลาย ๆ ครั้งที่นำไปใช้กับการถดถอย OLS ซึ่งไม่ได้เกิดขึ้นเมื่อดำเนินการอย่างถูกต้อง วิธีที่เหมาะสมในการทดสอบปัจจัยในบริบทการถดถอยคือการทดสอบแบบจำลองที่ซ้อนกันที่มีหุ่นจำลองปัจจัยทั้งหมดลดลงเมื่อเทียบกับแบบจำลองเต็มรูปแบบที่มีหุ่นจำลองปัจจัยทั้งหมดรวมอยู่ด้วย การทดสอบนี้เป็นแบบเดียวกับที่ ANOVA ดำเนินการ เป็นความจริงที่คุณไม่ควรใช้การทดสอบตัวแปรจำลองแต่ละตัว (ซึ่งฉันสงสัยว่าเป็นสิ่งที่คุณพยายามอธิบายที่นี่)
gung

3

ANOVA คุณกำลังทดสอบว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยประชากรโดยสมมติว่าคุณเปรียบเทียบค่าเฉลี่ยประชากรมากกว่าสองค่าหรือไม่จากนั้นคุณจะใช้การทดสอบ F

ในการวิเคราะห์การถดถอยคุณสร้างแบบจำลองระหว่างตัวแปรอิสระและตัวแปรตาม หากคุณมีตัวแปรอิสระหนึ่งตัวที่มีสี่ระดับคุณสามารถใช้ตัวแปรดัมมี่สามตัวและรันโมเดลการถดถอย การทดสอบ F สำหรับแบบจำลองการถดถอยซึ่งใช้ในการทดสอบความสำคัญของแบบจำลองการถดถอยนั้นเหมือนกับ F ที่คุณได้รับเมื่อทำการทดสอบความแตกต่างระหว่างค่าเฉลี่ยประชากร หากคุณใช้การถดถอยแบบขั้นตอนตัวแปรดัมมี่บางตัวอาจถูกดร็อปจากโมเดลและค่า F ของคุณจะแตกต่างจากเมื่อคุณทำการทดสอบ ANOVA


5
สิ่งนี้ทำให้ ANOVA เป็นขั้นตอนการทดสอบและการถดถอยเพื่อเป็นแบบจำลองที่คุณสามารถทำการทดสอบได้ แต่ ANOVA ก็มีรูปแบบพื้นฐานโดยไม่คำนึงว่าจะเน้นในการรักษาเบื้องต้นทั้งหมดหรือไม่ ดังนั้นคำตอบนี้ไม่ได้จับความแตกต่างระหว่างพวกเขา ไม่ได้ตอบคำถามนี้หรือไม่ซึ่งเป็นสาเหตุที่พวกเขาได้รับการสอนแตกต่างกัน
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.