ทำไมตารางโนวาของการถดถอยเหล่านี้จึงเหมือนกัน?


11

ฉันมีการถดถอยสองอันของ Y และ X ระดับเดียวกันสามระดับโดยรวม n = 15 โดยที่ n = 5 ในแต่ละกลุ่มหรือระดับ X การถดถอยครั้งแรกถือว่า X เป็นหมวดหมู่โดยกำหนดตัวแปรตัวบ่งชี้ให้อยู่ในระดับ 2 และ 3 ที่มีระดับ หนึ่งเป็นข้อมูลอ้างอิง ตัวชี้วัด / หุ่นเป็นเช่น: X1 = 1 ถ้าระดับ = 2, 0 ถ้าอื่น ๆ X2 = 1 ถ้าระดับ = 3, 0 ถ้าอื่น

ด้วยเหตุนี้โมเดลที่ติดตั้งของฉันจึงมีลักษณะดังนี้: y = b0 + b1 (x1) + b2 (x2)

ฉันเรียกใช้การถดถอยและผลลัพธ์รวมตารางการวิเคราะห์ความแปรปรวนนี้:

โต๊ะ

ส่วนที่เหลือของผลลัพธ์ไม่เกี่ยวข้องที่นี่

เอาล่ะตอนนี้ฉันเรียกใช้การถดถอยที่แตกต่างกันในข้อมูลเดียวกัน ฉันทิ้งการวิเคราะห์หมวดหมู่และปฏิบัติต่อ X อย่างต่อเนื่อง แต่ฉันเพิ่มตัวแปรลงในสมการ: X ^ 2, จตุรัสของ X ดังนั้นตอนนี้ฉันมีรูปแบบดังต่อไปนี้: y = b0 + b1 (X) + b2 (X) ^ 2

ถ้าฉันเรียกใช้มันจะแยกตารางการวิเคราะห์ความแปรปรวนแบบเดียวกับที่ฉันแสดงให้คุณเห็นด้านบน เหตุใดการถดถอยทั้งสองนี้จึงก่อให้เกิดตารางเดียวกัน

[เครดิตสำหรับปริศนาเล็ก ๆ น้อย ๆ นี้ไปที่ Thomas Belin ในภาควิชาชีวสถิติที่ University of California Los Angeles]


ฉันคิดว่าคุณจะต้องแสดงรหัสที่ "ทำการถดถอย" และอาจเป็นขั้นตอนข้อมูล (ดูเหมือนว่าเอาต์พุต SAS ให้ฉัน) คุณใช้เพื่อสร้างตารางข้อมูลที่คุณใช้งานอยู่
แบรดเอส.

1
@ แบรดฉันไม่คิดว่าจำเป็น: สถานการณ์มีการอธิบายอย่างชัดเจนและไม่ต้องการข้อมูลเพิ่มเติมเพื่ออธิบายสิ่งที่เกิดขึ้น
whuber

@whuber บางที ฉันเดาว่าถ้าคุณพูดอย่างนั้น แต่มันรู้สึกเหมือนมีข้อผิดพลาดในการเขียนโปรแกรมสำหรับฉัน ฉันหวังว่าจะได้คำตอบของคุณ
แบรดเอส.

1
@Brad ไม่ใช่ข้อผิดพลาดในการเขียนโปรแกรม: ฉันโพสต์คำอธิบายของฉัน เป็นคำถามที่ดีด้วยความสนใจทางสถิติที่แท้จริง (และการบังคับใช้)
whuber

เฮ้แบรดมันมาจากชุดปัญหา - สถานการณ์นั้นมอบให้ฉันแบบเดียวกับที่ฉันให้กับพวกคุณและคำถามก็เหมือนกัน: "ทำไมพวกเขาถึงเป็นอย่างนั้น?" มันเป็นเพียงวิธีที่ฉันวางไว้: สองรุ่น, ตาราง ANOVA เดียวกันส่วนที่เหลือของผลลัพธ์ที่ไม่ได้รับ (ฉันควรทำให้ชัดเจนแทนที่จะพูดว่า "ไม่เกี่ยวข้อง")
logjammin

คำตอบ:


22

ในแง่เมทริกซ์รุ่นของคุณอยู่ในรูปแบบปกติE E[Y]=Xβ

โมเดลแรกแสดงองค์ประกอบของกลุ่มแรกโดยแถวในซึ่งสอดคล้องกับการสกัดกั้นตัวบ่งชี้สำหรับหมวดหมู่ 2 และตัวบ่งชี้สำหรับหมวด 3 ซึ่งแสดงถึงองค์ประกอบของกลุ่มที่สองโดย แถวและองค์ประกอบของกลุ่มที่สามโดย(1,0,1)(1,0,0)X(1,1,0)(1,0,1)

รุ่นที่สองใช้แถวแทน ,และตามลำดับ(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

โทร Let 's รูปแบบที่เกิดเมทริกซ์และX_2มันเกี่ยวข้องกันเพียงอย่างเดียว: คอลัมน์หนึ่งคือการรวมกันเชิงเส้นของคอลัมน์อื่น ๆ ตัวอย่างเช่นให้X1X2

V=(111013028).

จากนั้นตั้งแต่

(100110101)V=(111124139),

มันเป็นไปตามนั้น

X1V=X2.

ตัวแบบจึงเกี่ยวข้องโดย

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

นั่นคือสัมประสิทธิ์สำหรับรุ่นที่สองจะต้องเกี่ยวข้องกับของรุ่นแรกผ่านβ2

β1=Vβ2.

ความสัมพันธ์เดียวกันจึงมีค่าประมาณกำลังสองน้อยที่สุด นี่แสดงให้เห็นว่าแบบจำลองมีความเหมาะสมเหมือนกัน : มันแสดงความแตกต่างเท่านั้น

เนื่องจากคอลัมน์แรกของเมทริกซ์แบบจำลองทั้งสองเหมือนกันตาราง ANOVA ใด ๆ ที่สลายการแปรปรวนระหว่างคอลัมน์แรกและคอลัมน์ที่เหลือจะไม่เปลี่ยนแปลง อย่างไรก็ตามตาราง ANOVA ที่แยกความแตกต่างระหว่างคอลัมน์ที่สองและสามจะขึ้นอยู่กับวิธีการเข้ารหัสข้อมูล

เรขาคณิต (และค่อนข้างเป็นนามธรรม) ที่สเปซสามมิติของสร้างโดยคอลัมน์ของเกิดขึ้นพร้อมกับสเปซที่สร้างขึ้นโดยคอลัมน์ของX_2ดังนั้นโมเดลจะมีขนาดพอดี ความพอดีจะแสดงแตกต่างกันเพียงเพราะช่องว่างจะอธิบายด้วยสองฐานที่แตกต่างกันR15X1X2


เพื่อแสดงให้เห็นที่นี่มีข้อมูลเหมือนกันกับคุณ ( แต่กับการตอบสนองที่แตกต่างกัน) Rและการวิเคราะห์ที่สอดคล้องกันเช่นนี้สร้างขึ้นใน

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

พอดีกับทั้งสองรุ่น:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

แสดงตาราง ANOVA ของพวกเขา

anova(fit.1)
anova(fit.2)

ผลลัพธ์สำหรับรุ่นแรกคือ

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

สำหรับรุ่นที่สองมันเป็น

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

คุณจะเห็นได้ว่าผลรวมของสี่เหลี่ยมที่เหลือเหมือนกัน ด้วยการเพิ่มสองแถวแรกในรูปแบบที่สองคุณจะได้รับ DF และผลรวมของสี่เหลี่ยมจัตุรัสเดียวกันซึ่งสามารถคำนวณหาค่าเฉลี่ยของค่าสี่เหลี่ยมจัตุรัสค่า F และค่า p เดียวกันได้

สุดท้ายเรามาเปรียบเทียบการประมาณค่าสัมประสิทธิ์

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

ผลลัพธ์คือ

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

แม้แต่การสกัดกั้นก็แตกต่างกันโดยสิ้นเชิง นั่นเป็นเพราะการประมาณการของตัวแปรใด ๆ ในการถดถอยหลายครั้งขึ้นอยู่กับการประมาณการของตัวแปรอื่น ๆ ทั้งหมด (เว้นแต่พวกเขาจะเป็นมุมฉากร่วมกันซึ่งไม่ได้เป็นกรณีสำหรับทั้งสองรุ่น) อย่างไรก็ตามดูว่าการคูณด้วยบรรลุผลอะไร:V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

ความพอดีนั้นเหมือนกันกับที่อ้างไว้


6
มนุษย์สูบบุหรี่ ฉันไม่เคยได้รับการพิจารณามากขึ้นตอบอย่างละเอียดจากการถามคำถามทางอินเทอร์เน็ต ขอบคุณ x1000 อย่างจริงจัง
logjammin

ยินดีต้อนรับสู่เว็บไซต์ของเรา! ฉันหวังว่าคุณจะใช้มันต่อไปและหวังว่าจะมีส่วนร่วมของคุณ
whuber

1
ฉันเรียนรู้บางอย่างวันนี้! (upvoted)
Brad S.

คำตอบที่น่าอัศจรรย์ ใจเป่า!
kedarps

5

สั้น ๆ ทั้งสองรุ่นมีความอิ่มตัวในแง่ที่ว่าพวกเขาให้การคาดการณ์เชิงประจักษ์ที่ไม่ซ้ำกันของการตอบสนองที่ระดับ 3 ทั้งหมดของ X มันอาจจะเห็นได้ชัดเจนสำหรับการเข้ารหัสตัวแปรปัจจัยในรุ่น 1 สำหรับแนวโน้มกำลังสอง สูตรกำลังสองสามารถแก้ไขจุดใดก็ได้ 3 จุด ในขณะที่ความแตกต่างนั้นแตกต่างกันในทั้งสองรุ่นการทดสอบทั่วโลกเทียบกับโมฆะของการสกัดกั้นเท่านั้นที่ให้การอนุมานที่เหมือนกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.