ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ทำไม ANOVA จึงถูกใช้กันอย่างแพร่หลายในการศึกษาทดลอง?


24

ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น?

ฉันเข้าใจว่าวิธีการทั้งสองนี้ดูเหมือนจะใช้ตัวแบบสถิติเดียวกัน อย่างไรก็ตามภายใต้สถานการณ์ใดฉันควรใช้วิธีใด

อะไรคือข้อดีและข้อเสียของวิธีการเหล่านี้เมื่อเปรียบเทียบ?

ทำไม ANOVA จึงถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาทดลองและฉันแทบจะไม่เคยพบการถดถอย


5
เนื่องจากทั้งสองรุ่นใช้เหมือนกันจึงไม่สำคัญว่าคุณจะใช้อะไร
Peter Flom - Reinstate Monica

3
ฉันเรียกมันว่าการถดถอยเมื่อฉันกำลังเปรียบเทียบความลาดชันเช่นตัวแปรตัวทำนายต่อเนื่องและ ANOVA เมื่อฉันเปรียบเทียบค่าเฉลี่ยนั่นคือตัวแปรตัวทำนายหมวดหมู่ เหตุผลที่คุณพบ ANOVA มากขึ้นในการศึกษาเชิงทดลองคือเพราะส่วนใหญ่เป็นการเปรียบเทียบวิธีการหรือระดับของการรักษาเช่นการเปรียบเทียบปุ๋ยต่าง ๆ กับการเจริญเติบโตของพืช แต่ในขณะที่ @PeterFlom บอกว่าทั้งคู่ใช้โมเดลเดียวกันและไม่สำคัญว่าคุณจะใช้รุ่นใด - สิ่งเดียวที่มีลักษณะแตกต่างกันคือเอาต์พุตที่ให้คุณ - และขึ้นอยู่กับคำถามของคุณคุณต้องการเอาต์พุต "การถดถอย" หรือ เอาต์พุต "ANOVA"
Stefan

2
อืม แต่คุณอาจรวมถึงตัวทำนายหมวดหมู่ในการถดถอยผ่านการเข้ารหัสแบบดัมมี่?
florian

ใช่แน่นอน!
Stefan

4
คำถามของคุณถูกต้องมากและได้รับการแก้ไขหลายครั้งจากมุมมองที่แตกต่างกันในประวัติส่วนตัว ลักษณะที่ซ้ำกันของการทดสอบเหล่านี้คือทำให้งง มันง่ายที่จะพูดว่า ANOVA = การถดถอยเชิงเส้นและฉันคิดว่าความคิดเห็นทั้งหมดที่ทำไปจนถึงตอนนี้มีประโยชน์และตรงประเด็น แต่ความจริงแล้วมันค่อนข้างเหมาะสมและเข้าใจยากโดยเฉพาะอย่างยิ่งถ้าคุณรวม ANCOVA ไว้ในบทวิเคราะห์ ความแปรปรวน ตรวจสอบรายการอื่น ๆ เช่นนี้ ฉัน +1 คำถามของคุณแม้ว่ามันจะพูดซ้ำกันอย่างเคร่งครัด คุณสามารถให้อดีต
Antoni Parellada

คำตอบ:


22

มันจะน่าสนใจที่จะชื่นชมว่าแตกต่างที่อยู่ในประเภทของตัวแปรและอื่น ๆ โดยเฉพาะอย่างยิ่งประเภทของตัวแปร ใน ANOVA ทั่วไปเรามีตัวแปรเด็ดขาดที่มีกลุ่มแตกต่างกันและเราพยายามตรวจสอบว่าการวัดตัวแปรต่อเนื่องแตกต่างกันระหว่างกลุ่มหรือไม่ บนมืออื่น ๆ , OLS มีแนวโน้มที่จะถูกมองว่าเป็นความพยายามที่เป็นหลักในการประเมินความสัมพันธ์ระหว่าง regressand ต่อเนื่องหรือตัวแปรตอบสนองและการหนึ่งหรือregressors หรือหลายตัวแปร ในแง่นี้การถดถอยสามารถถูกมองว่าเป็นเทคนิคที่แตกต่างให้ยืมตัวมันเองเพื่อทำนายค่าตามบรรทัดการถดถอย

อย่างไรก็ตามความแตกต่างนี้ไม่ได้มีส่วนช่วยในการวิเคราะห์ ANOVA กับส่วนที่เหลือของการวิเคราะห์ความแปรปรวนของซุปอักษร (ANCOVA, MANOVA, MANCOVA) หรือการรวมของตัวแปรจำลองที่จำลองในการถดถอย OLS ฉันไม่ชัดเจนเกี่ยวกับสถานที่สำคัญทางประวัติศาสตร์ที่เฉพาะเจาะจง แต่ราวกับว่าทั้งสองเทคนิคได้ปรับตัวแบบขนานเพื่อรับมือกับโมเดลที่ซับซ้อนมากขึ้น

ตัวอย่างเช่นเราจะเห็นว่าความแตกต่างระหว่างANCOVAกับOLS กับตัวแปรดัมมี่ (หรือหมวดหมู่) (ในทั้งสองกรณีที่มีการโต้ตอบ)เป็นเครื่องสำอางมากที่สุด โปรดยกโทษให้ฉันออกจากขอบเขตในชื่อคำถามของคุณเกี่ยวกับการถดถอยเชิงเส้นหลายครั้ง

ในทั้งสองกรณีรูปแบบเป็นหลักเหมือนกันกับจุดที่ใน R ฟังก์ชั่นที่ใช้ในการดำเนินการ ANCOVA อย่างไรก็ตามมันสามารถนำเสนอที่แตกต่างกันโดยคำนึงถึงการรวมของการสกัดกั้นที่สอดคล้องกับระดับแรก (หรือกลุ่ม) ของตัวแปร (หรือหมวดหมู่) ตัวแปรในรูปแบบการถดถอยlm

ในแบบจำลองที่สมดุล ( กลุ่มมีขนาดเท่ากัน, ) และเพียงหนึ่ง covariate (เพื่อทำให้การนำเสนอเมทริกซ์ง่ายขึ้น) เมทริกซ์โมเดลใน ANCOVA สามารถพบได้ในรูปแบบต่าง ๆ ดังนี้:n 1 , 2 , in1,2,i

X=[1n100xn10001n200xn20001n300xn3]

สำหรับตัวแปรกลุ่มกลุ่มซึ่งแสดงเป็นบล็อคเมทริก3

สิ่งนี้สอดคล้องกับโมเดลเชิงเส้น:

α i β

y=αi+β1xn1+β2xn2+β3xn3+ϵi
กับเทียบเท่ากับกลุ่มวิธีการที่แตกต่างกันในการวิเคราะห์ความแปรปรวน แบบจำลองในขณะที่ต่างกันคือลาดของโควาเรียตสำหรับแต่ละกลุ่มαiβ

การนำเสนอของโมเดลเดียวกันในฟิลด์การถดถอยและโดยเฉพาะใน R จะพิจารณาการสกัดกั้นโดยรวมซึ่งสอดคล้องกับหนึ่งในกลุ่มและเมทริกซ์โมเดลสามารถแสดงเป็น:

X=[00000J3n,11n20x0xn2001n300xn3]

ของสมการ OLS:

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi
\

ในโมเดลนี้การสกัดกั้นโดยรวมจะถูกแก้ไขในแต่ละระดับกลุ่มโดยและกลุ่มก็มีความแตกต่างกันμ iβ0μi

ดังที่คุณเห็นจากแบบจำลองการฝึกอบรมการนำเสนอนั้นจะต้องมีตัวตนที่แท้จริงระหว่างการถดถอยและการวิเคราะห์ความแปรปรวน

ผมชอบที่จะตรวจสอบชนิดของสายนี้กับบางส่วนของรหัสและชุดข้อมูลที่ชื่นชอบmtcarsในการวิจัย ฉันใช้lmสำหรับ ANCOVA ตามกระดาษเบน Bolker ที่มีอยู่ที่นี่

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

ในส่วนของคำถามเกี่ยวกับวิธีการใช้งาน (การถดถอยด้วย R!) คุณอาจพบว่าคำวิจารณ์ออนไลน์นี้น่าขบขันฉันเจอในขณะที่เขียนบทความนี้


1
ขอบคุณสำหรับความคิดเห็นที่เป็นประโยชน์อย่างยิ่งนี้ ... การอ้างอิงจากคำอธิบายที่คุณเชื่อมโยง: "ใช้การถดถอยเมื่อคุณไม่แน่ใจว่าตัวแปรเด็ดขาดแบบอิสระมีผลกระทบใด ๆ หรือไม่ใช้ ANOVA เมื่อคุณต้องการดูว่าหมวดหมู่ใด ๆ ." แล้วทำไมการศึกษาทดลองหลายชิ้นจึงใช้ ANOVA ในเวลานั้น? จากการถดถอยความเข้าใจของฉันจะเป็นทางเลือกที่เหมาะสม นักวิจัยเชื่อมั่นเกินไปหรือไม่ว่ามีเอฟเฟกต์อยู่และค้นหาเฉพาะวิธีที่จะ "พิสูจน์" สถิติเหล่านั้นได้หรือไม่?
florian

คุณสามารถให้ตัวอย่างเชิงปฏิบัติที่ควรใช้ aov เหนือการถดถอยและอธิบายว่าทำไม ขอบคุณสำหรับเวลาของคุณฉันเป็นนักจิตวิทยาด้วยการฝึกอบรมและไม่สามารถเห็นข้อดีของ Anova ได้ยกเว้นว่าอาจเผยแพร่ได้ง่ายขึ้น
florian

มีโชคหรือเปล่า? ฉันจะสนใจฮิวริสติกที่เป็นรูปธรรมมากขึ้นเพื่อสนับสนุนขั้นตอนทั้งสองแบบดังนั้นโปรดแบ่งปันหากคุณพบคำตอบ
Antoni Parellada

น่าเสียดายที่ไม่มีการค้นพบใหม่ในการเดินทางสู่สถิติจนถึงตอนนี้ ... จะทำให้คุณโพสต์ข้อมูลที่ป้อนเข้ามามากขึ้น
florian

ฉันมีปัญหาในการเข้าใจเมทริกซ์โมเดล OLS และสมการที่เกี่ยวข้องที่นี่ ฉันไม่เข้าใจว่าคอลัมน์มาจากไหน (คอลัมน์ที่ 5 ของเมทริกซ์) นอกจากนี้ฉันคิดว่าสมการควรสอดคล้องกับคอลัมน์ (เช่น mu_i ควรเป็นสองกลุ่มเท่านั้นและควรรวมตัวแปร x ไว้โดยไม่ต้องมีปฏิสัมพันธ์กับกลุ่มจำลอง) ชี้แจงเพิ่มเติมชื่นชมมาก!
นิค

4

การถดถอยของ ANOVA และ OLS นั้นเหมือนกันทางคณิตศาสตร์ในกรณีที่ตัวทำนายของคุณเป็นหมวดหมู่ (ในแง่ของการอนุมานที่คุณวาดจากสถิติการทดสอบ) อีกวิธีหนึ่ง ANOVA เป็นกรณีพิเศษของการถดถอย ไม่มีอะไรที่ ANOVA สามารถบอกคุณได้ว่าการถดถอยไม่สามารถเกิดขึ้นได้ ตรงกันข้ามอย่างไรก็ตามไม่เป็นความจริง ANOVA ไม่สามารถใช้สำหรับการวิเคราะห์ด้วยตัวแปรต่อเนื่อง ดังนั้น ANOVA สามารถจัดเป็นเทคนิคที่ จำกัด มากขึ้น อย่างไรก็ตามการถดถอยนั้นไม่ได้มีประโยชน์เสมอไปสำหรับนักวิเคราะห์ที่มีความซับซ้อนน้อยกว่า ตัวอย่างเช่นสคริปต์ ANOVA ส่วนใหญ่จะสร้างเงื่อนไขการโต้ตอบโดยอัตโนมัติเช่นเดียวกับการถดถอยคุณมักจะต้องคำนวณเงื่อนไขเหล่านั้นด้วยตนเองโดยใช้ซอฟต์แวร์ การใช้ ANOVA อย่างกว้างขวางนั้นเป็นส่วนหนึ่งของการวิเคราะห์เชิงสถิติก่อนการใช้ซอฟต์แวร์ทางสถิติที่มีประสิทธิภาพมากขึ้น และในความเห็นของฉันเทคนิคที่ง่ายกว่าในการสอนให้กับนักเรียนที่ไม่มีประสบการณ์ซึ่งมีเป้าหมายคือความเข้าใจในระดับที่ค่อนข้างชัดเจนซึ่งจะช่วยให้พวกเขาวิเคราะห์ข้อมูลด้วยชุดโปรแกรมพื้นฐานทางสถิติ ลองบางครั้ง ... ตรวจสอบสถิติ t ที่การถดถอยขั้นพื้นฐานแยกออกแล้วยกกำลังสองแล้วเปรียบเทียบกับอัตราส่วน F จาก ANOVA กับข้อมูลเดียวกัน เหมือนกัน!


นี่ไม่เป็นความจริง.
Michael R. Chernick

4
@MichaelChernick คุณช่วยอธิบายเกี่ยวกับคำยืนยันมากมายในคำตอบนี้ที่คุณคิดว่าไม่จริงได้หรือไม่? แม้ว่ามันจะอยู่ในตำแหน่งสุดโต่ง แต่ก็ยากที่จะหาสิ่งที่เป็นเท็จ
whuber

ฉันคัดค้านคำแถลงว่าการถดถอยของ ANOVA และ OLS เหมือนกัน ฉันรู้ว่า ANOVA นั้นสามารถมองว่าเป็นการถดถอยที่ aa ซึ่งเป็นรูปแบบของโมเดลเชิงเส้นทั่วไปที่สามารถกำหนดได้เช่นเดียวกับการถดถอย
Michael R. Chernick

ในกรณี OLS พวกเขาจะไม่เหมือนกันนอกเหนือจากการส่งออกได้อย่างไร แบบจำลองพื้นฐานเหมือนกันส่วนที่เหลือจะเหมือนกันค่า p ที่พวกเขาสร้างเหมือนกัน มันเป็นผลลัพธ์ที่แตกต่าง
dbwilson

2

ประโยชน์หลักของการวิเคราะห์ความแปรปรวนในความคิดของฉันอยู่ในผลลัพธ์ หากคุณสนใจในนัยสำคัญทางสถิติของตัวแปรเด็ดขาด (ตัวประกอบ) เป็นบล็อก ANOVA จะให้การทดสอบนี้สำหรับคุณ ด้วยการถดถอยตัวแปรเด็ดขาดจะถูกแสดงด้วยตัวแปรดัมมี่ 2 ตัวหรือมากกว่านั้นขึ้นอยู่กับจำนวนหมวดหมู่และด้วยเหตุนี้คุณมีการทดสอบทางสถิติ 2 ครั้งขึ้นไปแต่ละการเปรียบเทียบค่าเฉลี่ยสำหรับหมวดหมู่เฉพาะกับค่าเฉลี่ยของหมวดหมู่โมฆะ ค่าเฉลี่ยโดยรวมขึ้นอยู่กับวิธีการเข้ารหัสแบบจำลอง) สิ่งเหล่านี้อาจไม่เป็นที่สนใจ ดังนั้นคุณต้องทำการวิเคราะห์หลังการประเมิน (โดยพื้นฐานแล้ว ANOVA) เพื่อรับการทดสอบโดยรวมของปัจจัยที่คุณสนใจ


จริงๆแล้วมันไม่เป็นความจริง หากคุณทำการทดสอบอัตราส่วนความน่าจะเป็นคุณกำลังทดสอบปัจจัยหมวดหมู่ทั้งหมดเป็นบล็อกในรูปแบบการถดถอย
Dan Chaltiel

ความคิดเห็นของคุณไม่ได้ขัดแย้งกับสิ่งที่ฉันพูด การทดสอบอัตราส่วนความน่าจะเป็นที่คุณพูดถึงจะเป็นการวิเคราะห์หลังการประเมินปัจจัยโดยการเปรียบเทียบโมเดลกับปัจจัยต่อโมเดลโดยไม่มี
dbwilson

หากคุณทำการวิเคราะห์ความแปรปรวนคุณจะได้รับค่าความแปรปรวนของ "ตัวแปรหมวดหมู่ (ตัวประกอบ) เป็นบล็อก" ดังนั้นการถดถอยด้วย LRT การถดถอยอาจให้คุณเบต้าหลายตัว แต่จะไม่ทำการทดสอบมากกว่า ANOVA ดังนั้นข้อความของคุณ "ดังนั้นคุณมีการทดสอบทางสถิติ 2 ครั้งหรือมากกว่า" ดูเหมือนว่าผิดสำหรับฉัน ทำไม LRT ถึงเป็น "post-estimation" มากกว่า ANOVA
Dan Chaltiel

1

ข้อได้เปรียบที่สำคัญของการถดถอยเชิงเส้นคือมันมีความทนทานต่อการละเมิดความสม่ำเสมอของความแปรปรวนเมื่อขนาดตัวอย่างข้ามกลุ่มไม่เท่ากัน อีกอย่างก็คือมันช่วยอำนวยความสะดวกในการรวมโควาเรียหลายตัว (แม้ว่าจะสามารถทำได้โดยง่ายด้วย ANCOVA เมื่อคุณสนใจรวมถึงโควาเรียเพียงตัวเดียว) การถดถอยกลายเป็นที่แพร่หลายในช่วงอายุเจ็ดสิบในการถือกำเนิดของความก้าวหน้าในอำนาจการใช้คอมพิวเตอร์ คุณอาจพบว่าการถดถอยสะดวกกว่าโดยเฉพาะถ้าคุณสนใจที่จะตรวจสอบความแตกต่างระหว่างตัวแปรเฉพาะของหมวดหมู่เมื่อมีมากกว่าสองระดับ (ตราบใดที่คุณตั้งค่าตัวแปรจำลองในการถดถอยเพื่อให้หนึ่งในสองระดับนี้ แสดงถึงกลุ่มอ้างอิง)


1
ดังที่ได้อธิบายไว้ในคำตอบอื่น ANOVA คือการถดถอยหลายครั้ง
gung - Reinstate Monica

ขอบคุณอะไรคือข้อดีของ Anova ทำไมคุณถึงใช้ Anova / Ancova กับโมเดลการถดถอย?
florian

ฉันมีคำถามที่นี่ ทำไมคุณถึงหมายถึง 'หนึ่ง covariate' เมื่ออธิบายถึงประโยชน์ของ ANCOVA เป็นเพราะคุณสามารถรวม covariate เพียงหนึ่งใน ANCOVA หรือไม่
Kevin Kang
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.