R: Anova และการถดถอยเชิงเส้น


9

ฉันใหม่สำหรับสถิติและฉันพยายามเข้าใจความแตกต่างระหว่าง ANOVA และการถดถอยเชิงเส้น ฉันใช้ R เพื่อสำรวจสิ่งนี้ ฉันอ่านบทความต่าง ๆ เกี่ยวกับสาเหตุที่ ANOVA และการถดถอยแตกต่างกัน แต่ก็ยังเหมือนเดิมและวิธีที่สามารถมองเห็นได้ ฯลฯ ฉันคิดว่าฉันสวยที่นั่น แต่หายไปหนึ่งบิต

ฉันเข้าใจว่า ANOVA เปรียบเทียบความแปรปรวนภายในกลุ่มกับความแปรปรวนระหว่างกลุ่มเพื่อพิจารณาว่ามีหรือไม่มีความแตกต่างระหว่างกลุ่มที่ทดสอบ ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

สำหรับการถดถอยเชิงเส้นฉันพบโพสต์ในฟอรัมนี้ซึ่งบอกว่าสามารถทดสอบได้เหมือนกันเมื่อเราทดสอบว่า b (ความชัน) = 0 ( ทำไม ANOVA สอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น )

สำหรับกลุ่มมากกว่าสองกลุ่มฉันพบเว็บไซต์ที่ระบุ:

สมมติฐานว่างคือ: H0:µ1=µ2=µ3

รูปแบบการถดถอยเชิงเส้นคือ: Y=0+1X1+2X2+อี

อย่างไรก็ตามผลลัพธ์ของการถดถอยเชิงเส้นนั้นจะถูกสกัดกั้นสำหรับกลุ่มหนึ่งและความแตกต่างของการสกัดกั้นนี้สำหรับอีกสองกลุ่ม ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

สำหรับฉันดูเหมือนว่าจริง ๆ แล้วมีการเปรียบเทียบกับดักกันและไม่ใช่ความลาดชัน?

อีกตัวอย่างหนึ่งที่พวกเขาเปรียบเทียบการสกัดกั้นมากกว่าที่ลาดชันสามารถดูได้ที่นี่: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

ตอนนี้ฉันกำลังดิ้นรนเพื่อทำความเข้าใจสิ่งที่เปรียบเทียบจริง ๆ แล้วในการถดถอยเชิงเส้น เนินเขาดักหรือทั้งสองอย่าง?


คำตอบ:


16

ดูเหมือนว่าจะมีการเปรียบเทียบกับดักจริง ๆ และไม่ใช่ความลาดชันใช่ไหม

ความสับสนของคุณนั้นเกี่ยวข้องกับความจริงที่ว่าคุณต้องระวังให้มากเพื่อให้ชัดเจนเกี่ยวกับการสกัดกั้นและความลาดชันที่คุณหมายถึง (การสกัดกั้นความลาดชันของอะไร?)

บทบาทของสัมประสิทธิ์ของหุ่นจำลอง 0-1 ในการถดถอยนั้นสามารถเป็นได้ทั้งความชันและความแตกต่างของการสกัดกั้น

มาทำให้สิ่งต่าง ๆ ง่ายขึ้นเท่าที่จะทำได้โดยการพิจารณากรณีตัวอย่างสองตัวอย่าง

เรายังคงสามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวกับสองตัวอย่าง แต่มันกลับกลายเป็นว่าเหมือนกับการทดสอบ t-test สองตัวอย่างสองด้าน (กรณีความแปรปรวนเท่ากัน)

นี่คือแผนภาพของสถานการณ์ประชากร:

สองกลุ่มหมายถึงการถดถอยสถานการณ์ประชากร

ถ้าแสดงว่าแบบจำลองประชากรเชิงเส้นคือδ=μ2μ1

y=μ1+δx+e

ดังนั้นเมื่อ (ซึ่งเป็นกรณีเมื่อเราอยู่ในกลุ่ม 1) ค่าเฉลี่ยของคือและเมื่อ (เมื่อเราอยู่ในกลุ่ม 2) ค่าเฉลี่ยของคือ\x=0yμ1+δ×0=μ1x=1Yμ1+δ×1=μ1+μ2-μ1=μ2

นั่นคือสัมประสิทธิ์ของความชัน (ในกรณีนี้) และความแตกต่างของค่าเฉลี่ย (และคุณอาจคิดว่าวิธีการเหล่านั้นเป็นดัก) คือปริมาณเดียวกันδ

เพื่อช่วยให้มีความเป็นรูปธรรมนี่เป็นสองตัวอย่าง:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

พวกเขามองอย่างไร

พล็อตตัวอย่าง

การทดสอบความแตกต่างหมายถึงอะไร

เป็นการทดสอบ t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

ในฐานะที่เป็นถดถอย:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

เราสามารถเห็นได้ในการถดถอยที่คำว่าการสกัดกั้นเป็นค่าเฉลี่ยของกลุ่ม 1 และสัมประสิทธิ์ groupg2 (สัมประสิทธิ์ 'ความชัน') คือความแตกต่างในค่าเฉลี่ยของกลุ่ม ในขณะเดียวกันค่า p สำหรับการถดถอยก็เหมือนกับ p-value สำหรับ t-test (0.003976)


ขอบคุณมากสำหรับตัวอย่างที่มีประโยชน์อย่างยิ่งนี้ ฉันเพิ่งรู้ว่ายังมีคำถามเปิด ฉันไม่เข้าใจว่าทำไมความชันจึงแสดงเป็นμ2 − μ1 ความชันไม่ได้ถูกกำหนดให้เป็น m = delta Y / delta X หรือไม่?
Paul

2
มันคือ; แต่และและ\ ในระยะสั้นเมื่อคุณรหัสเป็น 0/1 ความชันคือความแตกต่าง Δx=1-0=1Δy=(μ1+δ×1)(μ1+δ×0)=δ=μ2μ1ΔY/Δx=(μ2-μ1)/1=μ2-μ1
Glen_b -Reinstate Monica

+1 ภาพประกอบกราฟิกว่าทำไมความชันเท่ากับความแตกต่างหมายถึงช่วยฉันได้มาก !!
Haitao Du
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.