ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน?


21

ฉันกำลังเรียนรู้เกี่ยวกับการวิเคราะห์การถดถอยและการวิเคราะห์ความแปรปรวน

ในการวิเคราะห์การถดถอยคุณมีตัวแปรหนึ่งคงที่และคุณต้องการทราบว่าตัวแปรนั้นไปกับตัวแปรอื่นได้อย่างไร

ในการวิเคราะห์ความแปรปรวนที่คุณต้องการทราบเช่น: หากอาหารสัตว์นี้มีผลต่อน้ำหนักของสัตว์ ... ดังนั้นหนึ่ง var คงที่และอิทธิพลต่อคนอื่น ...

ถูกหรือผิดกรุณาช่วยด้วย ...

คำตอบ:


25

สมมติว่าชุดข้อมูลประกอบด้วยชุดสำหรับและคุณต้องการที่จะมองไปที่การพึ่งพาอาศัยกันของบนx(xi,yi)i=1,,nyx

สมมติว่าคุณพบค่าและของและที่ลดผลรวมที่เหลือของกำลังสอง จากนั้นคุณใช้เป็นค่าคาดการณ์ไว้สำหรับค่าใด ๆ (ไม่จำเป็นต้องสังเกตไว้แล้ว) -value นั่นคือการถดถอยเชิงเส้น β αβ n Σฉัน=1(Yฉัน-(α+βxฉัน))2 Y = α + β xYxα^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

ตอนนี้ให้พิจารณาการแยกย่อยผลรวมของกำลังสอง ด้วยองศาอิสระเข้าสู่ "อธิบาย" และ "อธิบาย" ส่วน: ด้วยและองศาอิสระตามลำดับ นั่นคือการวิเคราะห์ความแปรปรวนจากนั้นจึงพิจารณาสิ่งต่าง ๆ เช่น F-stats นี้ n-1 n Σฉัน= 1 ( ( α + β x ฉัน ) - ˉ Y ) 2อธิบาย+ n Σฉัน= 1 ( Y ฉัน - ( α + β x ฉัน ) ) 2ไม่ได้อธิบาย 1n-2F= n i =

i=1n(yiy¯)2where y¯=y1++ynn
n1
i=1n((α^+β^xi)y¯)2explained + i=1n(yi(α^+β^xi))2unexplained.
1n2
F=i=1n((α^+β^xi)y¯)2/1i=1n(yi(α^+β^xi))2/(n2).
การทดสอบ F-สถิติสมมติฐาน 0β=0

หนึ่งมักจะพบคำว่า "การวิเคราะห์ความแปรปรวน" เป็นครั้งแรกเมื่อตัวทำนายเป็นหมวดหมู่ดังนั้นคุณจึงปรับโมเดล โดยที่ระบุว่าหมวดใดเป็นค่าของตัวทำนาย หากมีหมวดหมู่คุณจะได้องศาอิสระในตัวเศษในสถิติ F และโดยทั่วไปแล้วองศาอิสระในตัวส่วน แต่ความแตกต่างระหว่างการถดถอยและการวิเคราะห์ความแปรปรวนยังคงเหมือนเดิมสำหรับรุ่นนี้

y=α+βi
ikk1nk

คะแนนเพิ่มเติมสองสามข้อ:

  • สำหรับนักคณิตศาสตร์บางคนบัญชีด้านบนอาจทำให้ปรากฏว่าฟิลด์ทั้งหมดเป็นเพียงสิ่งที่เห็นด้านบนดังนั้นจึงอาจดูเหมือนลึกลับว่าทั้งการถดถอยและการวิเคราะห์ความแปรปรวนเป็นพื้นที่การวิจัยเชิงรุก มีหลายสิ่งที่ไม่เหมาะสมกับคำตอบที่เหมาะสมสำหรับการโพสต์ที่นี่
  • มีข้อผิดพลาดที่เป็นที่นิยมและดึงดูดซึ่งเรียกว่า "เชิงเส้น" เนื่องจากกราฟของเป็นเส้น นั่นเป็นเท็จ หนึ่งในคำตอบก่อนหน้าของฉันอธิบายว่าทำไมมันยังคงเรียกว่า "การถดถอยเชิงเส้น" เมื่อคุณปรับพหุนามด้วยกำลังสองน้อยที่สุดy=α+βx

5
@MichaelHardy ในขณะที่การสลายตัวของความแปรปรวนเป็นองค์ประกอบในการถดถอยมักจะเรียกว่าการวิเคราะห์ตารางความแปรปรวน นั่นไม่ใช่สิ่งที่นักสถิติทั่วไปหมายถึงโดย ANOVA วิธีการที่ 1) การถดถอยเชิงเส้น 2) การวิเคราะห์ความแปรปรวนและ 3) การวิเคราะห์ความแปรปรวนร่วมเป็นหมวดหมู่ภายใต้หัวข้อทั่วไปของแบบจำลองเชิงเส้นทั่วไปการถดถอยเชิงเส้นเกี่ยวข้องกับโควาเรียต่อเนื่อง ANOVA รวมกลุ่มแยกเท่านั้น กลุ่มไม่ต่อเนื่อง
Michael R. Chernick

1
บางครั้งคนหนึ่งพูดอย่างไม่เป็นทางการและคำตอบของฉันไม่ได้บอกว่า แต่เราควรรู้ว่า (1) การประมาณค่าสัมประสิทธิ์กำลังสองน้อยที่สุดนั้นทำได้ทั้งสองปัญหา (ตัวทำนายต่อเนื่องหรือหมวดหมู่) และการสลายตัวของผลรวม ของสี่เหลี่ยมที่มีองศาอิสระตรงกัน - ตารางแอนโนวาก็ทำได้ทั้งสองปัญหา
Michael Hardy

5
ด้วยสัมปทานที่คุณต้องยอมรับว่าไม่มีอะไรผิดปกติกับคำตอบของฉัน ข้อกำหนดของ ANOVA ANCOVA และการถดถอยไม่ใช่ข้อกำหนดที่ไม่เป็นทางการ พวกเขาเป็นทางการชัดเจนมากและไม่ถูกต้องที่จะบอก OP ว่า ANOVA เป็นการสลายตัวของความแปรปรวนในการถดถอย ความจริงที่ว่ากระบวนการทางสถิติที่มีคนชื่อ anova สามารถทำแบบจำลองเชิงเส้นใด ๆ ไม่ได้พิสูจน์อะไรเลย ใน SAS proc reg เกี่ยวข้องกับการถดถอยเท่านั้น proc anova เกี่ยวข้องเฉพาะกับการวิเคราะห์ความแปรปรวนตามที่ฉันกำหนดไว้และ proc glm เป็นสิ่งที่ทำทั้งสองอย่าง
Michael R. Chernick

1
.... และใน R, "lm (.... )" ให้สัมประสิทธิ์การถดถอยทั้งสองสถานการณ์และ "anova (lm (.... ))" ให้การสลายตัวของผลรวมของกำลังสองและองศาอิสระ ในทั้งสองสถานการณ์ เท่าที่ "ต้องยอมรับ" ไปฉันได้ใส่ความคิดเห็นเพิ่มเติมไว้ด้านล่างคำตอบของคุณ แน่นอนถ้าคุณจะพูดถึงการถดถอยโลจิสติกมันจะชัดเจนขึ้นถ้าคุณพูดว่าทันทีที่คุณไม่ได้พูดถึงการถดถอยเชิงเส้นคำว่า "การถดถอย" เป็นคำที่กว้างมากที่สามารถรวมหลายสิ่ง
Michael Hardy

@MichaelHardy รู้สึกอิสระที่จะแสดงความคิดเห็นกับคำถามของฉันที่เกิดขึ้นในเว็บไซต์ stats.SE ฉันคิดว่าคำตอบของคุณและคำตอบของคำถามนี้ถูกต้อง แน่นอนฉันคัดค้านคำตอบของฉันถูก downvoted ฉันต้องการได้รับความคิดเห็นของผู้อื่นในชุมชนสถิติเกี่ยวกับเรื่องนี้
Michael R. Chernick

5

ความแตกต่างที่สำคัญคือตัวแปรตอบสนอง ในขณะที่การถดถอยโลจิสติกเกี่ยวข้องกับการตอบสนองแบบไบนารีในการวิเคราะห์การถดถอยเชิงเส้นและการถดถอยแบบไม่เชิงเส้นตัวแปรการตอบสนองจะต่อเนื่อง คุณมีตัวแปร (หรือที่รู้จักว่า covariate (s) ที่มีความสัมพันธ์ในการทำงานกับตัวแปรตอบสนองต่อเนื่อง ในการวิเคราะห์ความแปรปรวนการตอบสนองเป็นไปอย่างต่อเนื่อง แต่เป็นของประเภทที่แตกต่างกันไม่กี่ (เช่นกลุ่มการรักษาและกลุ่มควบคุม) ในการวิเคราะห์ความแปรปรวนคุณมองหาความแตกต่างในการตอบสนองเฉลี่ยระหว่างกลุ่ม ในการถดถอยเชิงเส้นคุณจะเห็นว่าการตอบสนองเปลี่ยนแปลงไปอย่างไรเมื่อตัวแปรร่วมเปลี่ยนแปลง อีกวิธีหนึ่งในการดูความแตกต่างคือการบอกว่าในการถดถอย covariates นั้นมีความต่อเนื่องในขณะที่การวิเคราะห์ความแปรปรวนพวกมันเป็นกลุ่มที่แยกกัน


6
ฉันใช้คำถามเพื่อหมายถึงความแตกต่างระหว่างการถดถอยเชิงเส้นและการวิเคราะห์ความแปรปรวน การนำการถดถอยโลจิสติกดูเหมือนจะอยู่ห่างจากหัวข้อ อย่างไรก็ตามประโยคสุดท้ายของคุณผิด การวิเคราะห์ความแปรปรวนสามารถทำได้โดยไม่คำนึงว่าตัวทำนายจะแยกหรือต่อเนื่อง
Michael Hardy

1
แน่นอนมีตัวทำนายในการวิเคราะห์ความแปรปรวน ในตัวอย่างของคุณตัวทำนายเป็นหมวดหมู่ แต่ไม่จำเป็นต้องเป็นเช่นนั้น การวิเคราะห์ความแปรปรวนไม่เพียง แต่พิจารณาปัญหาที่เกี่ยวข้องกับ "กลุ่มที่ไม่ต่อเนื่อง"
Michael Hardy

3
@MichaelHardy ฉันกำลังถอยกลับเพราะเมื่อฉันตรวจสอบสารานุกรมสถิติของฉันฉันพบการอ้างอิงถึงการวิเคราะห์ความแปรปรวนในแง่ของการสลายตัวของความแปรปรวนในแบบจำลองเชิงเส้นทั่วไป แต่คำนี้มีสองความหมายและบ่อยครั้งที่ ANOVA นั้นแตกต่างจาก ANCOVA และการถดถอยในวิธีที่ฉันอธิบาย ดังนั้น OP จึงควรตระหนักถึงคำศัพท์ทั้งสองที่กล่าวถึงส่วนประกอบของความแปรปรวนในโมเดลเชิงเส้นทั่วไปและอีกอันหนึ่งที่อ้างถึงคลาสย่อยของโมเดลเชิงเส้นที่เกี่ยวข้องกับกลุ่มแยกเท่านั้น
Michael R. Chernick

2
ฉันคิดว่าการใช้ที่คุณใช้ไม่เป็นทางการ ดูเหมือนว่าแปลกที่จะพูดถึงการถดถอยโลจิสติกโดยไม่ต้องบอกว่ามันเป็นเพียงหนึ่งในความหลากหลายของ "ถดถอย" เมื่อคำที่ถูกนำมาใช้ในความหมายที่กว้างของการประมาณค่าเฉลี่ยหรือคาดการณ์ของตัวแปรหนึ่งที่ได้รับอีกแล้วความแตกต่างที่ได้จากการวิเคราะห์ความแปรปรวน . แต่คำถามของความแตกต่างระหว่างตัวแบบการถดถอยเชิงเส้นและการวิเคราะห์ความแปรปรวนดูเหมือนเป็นคำถามที่สมเหตุสมผลกว่า แต่มักมีความไม่แน่นอนเกี่ยวกับสิ่งที่โปสเตอร์ดั้งเดิมตั้งใจไว้
Michael Hardy

7
ไม่ว่าคุณตั้งใจจะทำอะไรฉันก็พบว่า " ฉันมีปริญญาเอกในด้านสถิติ, ... " ความเห็นนั้นไม่เหมาะสม ก่อนอื่นมันไม่ทำอะไรเลยเพื่อแก้ไขปัญหาที่อยู่ในมือ การดึงดูดต่อผู้มีอำนาจเป็นวิธีที่ใช้บ่อย แต่มีความเข้าใจผิดในการพิสูจน์สิ่งต่าง ๆ การดึงดูดอำนาจของคุณเองเป็นปัญหามากยิ่งขึ้น นอกจากนี้ยังสามารถตีความได้ว่าเป็นการแสดง (โดยไม่ตั้งใจหรืออย่างอื่น) การขาดความเคารพ @MichaelHardy (บุคคลที่คุณกำลังพูดถึง) ซึ่งเป็นผู้ที่มีปริญญาเอกด้านสถิติจากโปรแกรมที่มีชื่อเสียงมาก
พระคาร์ดินัล

2

การวิเคราะห์ความแปรปรวน (ANOVA) เป็นร่างกายของวิธีการทางสถิติในการวิเคราะห์การสังเกตที่คิดว่าเป็นของโครงสร้าง

yi=β1xi1+β2xi2++βpxip+ei, i=1(1)nซึ่งจะประกอบด้วยการผสมเชิงเส้นของปริมาณที่ไม่รู้จักบวกข้อผิดพลาดและ { } เป็นที่ทราบกันว่าค่าสัมประสิทธิ์คงที่กับ rv ของ { } นั้นไม่เกี่ยวข้องกันและมีค่าเฉลี่ยและความแปรปรวน (ไม่ทราบ) .pβ1,β2,,βpe1,e2,,enxijei0σ2

คือ โดยที่ Dคือเมทริกซ์การกระจายหรือเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมE(yn×1)=Xβ,D(y)=σ2In

โดยที่ค่าสัมประสิทธิ์ { } เป็นค่าของตัวนับตัวแปรหรือตัวแปรตัวบ่งชี้ที่อ้างถึงการมีอยู่หรือไม่มีผลกระทบ { } ในเงื่อนไขภายใต้การสังเกต: { } คือ จำนวนครั้งที่เกิดขึ้นในที่ iสังเกตและนี้มักจะหรือ1โดยทั่วไปในการวิเคราะห์ความแปรปรวนปัจจัยทั้งหมดจะได้รับการปฏิบัติในเชิงคุณภาพ β j x i j β j 0 1xijβjxijβj01

หาก { } เป็นค่าที่ใช้ในการสังเกตไม่ใช่โดยตัวแปรเคาน์เตอร์ แต่โดยตัวแปรต่อเนื่องเช่น = เวลา, = อุณหภูมิ, , ฯลฯ เรามีกรณี ของการวิเคราะห์การถดถอย * โดยทั่วไปในการวิเคราะห์การถดถอยปัจจัยทั้งหมดเป็นเชิงปริมาณและเชิงปริมาณ t T t 2 , e - TxijtTt2,eT

ส่วนใหญ่สองคนนี้เป็นสองประเภทของการวิเคราะห์


i=1(1)n

1
i=1(1)ni=1,2,,n

-1

ในการวิเคราะห์การถดถอยคุณมีตัวแปรหนึ่งคงที่และคุณต้องการทราบว่าตัวแปรนั้นไปกับตัวแปรอื่นได้อย่างไร

ในการวิเคราะห์ความแปรปรวนที่คุณต้องการทราบเช่น: หากอาหารสัตว์นี้มีผลต่อน้ำหนักของสัตว์ ... ดังนั้นหนึ่ง var คงที่และอิทธิพลอื่น ๆ


1
สวัสดี Aiza ยินดีต้อนรับสู่ SE คุณต้องแก้ไขสิ่งนี้เพื่อให้มีบริบทมากขึ้นและทำให้ชัดเจนว่าคำถามคืออะไร
หยุดการปิดคำถามอย่างรวดเร็ว
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.