ในแง่เมทริกซ์รุ่นของคุณอยู่ในรูปแบบปกติE E[Y]=Xβ
โมเดลแรกแสดงองค์ประกอบของกลุ่มแรกโดยแถวในซึ่งสอดคล้องกับการสกัดกั้นตัวบ่งชี้สำหรับหมวดหมู่ 2 และตัวบ่งชี้สำหรับหมวด 3 ซึ่งแสดงถึงองค์ประกอบของกลุ่มที่สองโดย แถวและองค์ประกอบของกลุ่มที่สามโดย(1,0,1)(1,0,0)X(1,1,0)(1,0,1)
รุ่นที่สองใช้แถวแทน ,และตามลำดับ(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)
โทร Let 's รูปแบบที่เกิดเมทริกซ์และX_2มันเกี่ยวข้องกันเพียงอย่างเดียว: คอลัมน์หนึ่งคือการรวมกันเชิงเส้นของคอลัมน์อื่น ๆ ตัวอย่างเช่นให้X1X2
V=⎛⎝⎜100112138⎞⎠⎟.
จากนั้นตั้งแต่
⎛⎝⎜111010001⎞⎠⎟V=⎛⎝⎜111123149⎞⎠⎟,
มันเป็นไปตามนั้น
X1V=X2.
ตัวแบบจึงเกี่ยวข้องโดย
X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).
นั่นคือสัมประสิทธิ์สำหรับรุ่นที่สองจะต้องเกี่ยวข้องกับของรุ่นแรกผ่านβ2
β1=Vβ2.
ความสัมพันธ์เดียวกันจึงมีค่าประมาณกำลังสองน้อยที่สุด นี่แสดงให้เห็นว่าแบบจำลองมีความเหมาะสมเหมือนกัน : มันแสดงความแตกต่างเท่านั้น
เนื่องจากคอลัมน์แรกของเมทริกซ์แบบจำลองทั้งสองเหมือนกันตาราง ANOVA ใด ๆ ที่สลายการแปรปรวนระหว่างคอลัมน์แรกและคอลัมน์ที่เหลือจะไม่เปลี่ยนแปลง อย่างไรก็ตามตาราง ANOVA ที่แยกความแตกต่างระหว่างคอลัมน์ที่สองและสามจะขึ้นอยู่กับวิธีการเข้ารหัสข้อมูล
เรขาคณิต (และค่อนข้างเป็นนามธรรม) ที่สเปซสามมิติของสร้างโดยคอลัมน์ของเกิดขึ้นพร้อมกับสเปซที่สร้างขึ้นโดยคอลัมน์ของX_2ดังนั้นโมเดลจะมีขนาดพอดี ความพอดีจะแสดงแตกต่างกันเพียงเพราะช่องว่างจะอธิบายด้วยสองฐานที่แตกต่างกันR15X1X2
เพื่อแสดงให้เห็นที่นี่มีข้อมูลเหมือนกันกับคุณ ( แต่กับการตอบสนองที่แตกต่างกัน) R
และการวิเคราะห์ที่สอดคล้องกันเช่นนี้สร้างขึ้นใน
set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))
พอดีกับทั้งสองรุ่น:
fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)
แสดงตาราง ANOVA ของพวกเขา
anova(fit.1)
anova(fit.2)
ผลลัพธ์สำหรับรุ่นแรกคือ
Df Sum Sq Mean Sq F value Pr(>F)
factor(group) 2 51.836 25.918 14.471 0.000634 ***
Residuals 12 21.492 1.791
สำหรับรุ่นที่สองมันเป็น
Df Sum Sq Mean Sq F value Pr(>F)
group 1 50.816 50.816 28.3726 0.0001803 ***
I(group^2) 1 1.020 1.020 0.5694 0.4650488
Residuals 12 21.492 1.791
คุณจะเห็นได้ว่าผลรวมของสี่เหลี่ยมที่เหลือเหมือนกัน ด้วยการเพิ่มสองแถวแรกในรูปแบบที่สองคุณจะได้รับ DF และผลรวมของสี่เหลี่ยมจัตุรัสเดียวกันซึ่งสามารถคำนวณหาค่าเฉลี่ยของค่าสี่เหลี่ยมจัตุรัสค่า F และค่า p เดียวกันได้
สุดท้ายเรามาเปรียบเทียบการประมาณค่าสัมประสิทธิ์
beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)
ผลลัพธ์คือ
(Intercept) factor(group)2 factor(group)3
0.4508762 2.8073697 4.5084944
(Intercept) group I(group^2)
-3.4627385 4.4667371 -0.5531225
แม้แต่การสกัดกั้นก็แตกต่างกันโดยสิ้นเชิง นั่นเป็นเพราะการประมาณการของตัวแปรใด ๆ ในการถดถอยหลายครั้งขึ้นอยู่กับการประมาณการของตัวแปรอื่น ๆ ทั้งหมด (เว้นแต่พวกเขาจะเป็นมุมฉากร่วมกันซึ่งไม่ได้เป็นกรณีสำหรับทั้งสองรุ่น) อย่างไรก็ตามดูว่าการคูณด้วยบรรลุผลอะไร:V
⎛⎝⎜100112138⎞⎠⎟⎛⎝⎜−3.46273854.4667371−0.5531225⎞⎠⎟=⎛⎝⎜0.45087622.80736974.5084944⎞⎠⎟.
ความพอดีนั้นเหมือนกันกับที่อ้างไว้