สรุป
เมื่อตัวทำนายมีความสัมพันธ์กันคำที่เป็นกำลังสองและคำที่มีปฏิสัมพันธ์จะมีข้อมูลที่คล้ายกัน สิ่งนี้สามารถทำให้ทั้งโมเดลกำลังสองหรือโมเดลการโต้ตอบมีความสำคัญ แต่เมื่อรวมคำทั้งสองไว้ด้วยเพราะคำเหล่านั้นคล้ายกันดังนั้นอาจไม่มีนัยสำคัญ การวินิจฉัยแบบมาตรฐานสำหรับ multicollinearity เช่น VIF อาจล้มเหลวในการตรวจสอบสิ่งนี้ แม้แต่พล็อตการวินิจฉัยที่ออกแบบมาโดยเฉพาะเพื่อตรวจจับผลกระทบของการใช้แบบจำลองกำลังสองแทนที่การโต้ตอบอาจล้มเหลวในการพิจารณาว่าตัวแบบใดดีที่สุด
การวิเคราะห์
แรงผลักดันของการวิเคราะห์นี้และจุดแข็งหลักของมันคือการอธิบายลักษณะของสถานการณ์อย่างที่อธิบายไว้ในคำถาม ด้วยลักษณะที่มีอยู่จึงเป็นเรื่องง่ายที่จะจำลองข้อมูลที่ทำงานตามนั้น
พิจารณาตัวทำนายสองตัว และ X 2 (ซึ่งเราจะสร้างมาตรฐานให้โดยอัตโนมัติเพื่อให้แต่ละคนมีความแปรปรวนของหน่วยในชุดข้อมูล) และสมมติว่าการตอบสนองแบบสุ่ม Yถูกกำหนดโดยตัวทำนายเหล่านี้และปฏิสัมพันธ์ของพวกเขาX1X2Y
Y= β1X1+ β2X2+ β1 , 2X1X2+ ε
ในหลายกรณีผู้ทำนายมีความสัมพันธ์กัน ชุดข้อมูลอาจมีลักษณะเช่นนี้:
ข้อมูลตัวอย่างเหล่านี้ถูกสร้างขึ้นด้วยและβ 1 , 2 = 0.1 ความสัมพันธ์ระหว่างXβ1= β2= 1β1 , 2= 0.1และ X 2คือ0.85X1X20.85
นี่ไม่ได้แปลว่าเรากำลังคิดถึงและX 2X1X2เป็นการตระหนักถึงตัวแปรสุ่ม: มันสามารถรวมสถานการณ์ที่ทั้งและX 2เป็นการตั้งค่าในการทดสอบที่ออกแบบมา แต่ด้วยเหตุผลบางอย่างการตั้งค่าเหล่านี้ไม่ใช่ orthogonalX1X2
โดยไม่คำนึงถึงวิธีการที่มีความสัมพันธ์ที่เกิดขึ้นซึ่งเป็นหนึ่งในวิธีที่ดีที่จะอธิบายมันเป็นในแง่ของวิธีการมากทำนายแตกต่างจากค่าเฉลี่ยของพวกเขา 2 ความแตกต่างเหล่านี้จะมีขนาดค่อนข้างเล็ก (ในแง่ที่ว่าความแตกต่างของพวกเขาน้อยกว่า1 ); ยิ่งสหสัมพันธ์ระหว่างX 1และX 2มากเท่าไหร่ความแตกต่างเหล่านี้ก็ยิ่งน้อยลงเท่านั้น การเขียนดังนั้นX 1 = X 0 + δ 1และX 2 = X 0 + δX0= ( X1+ X2) / 21X1X2X1= X0+ δ1เราสามารถ re-Express (พูด) X 2ในแง่ของ - δ 1 ) การเสียบสิ่งนี้เข้ากับเทอมการโต้ตอบเท่านั้นโมเดลคือX2= X0+ δ2X2เป็น X 2 = X 1 + ( δ 2X1X2= X1+ ( δ2- δ1)
Y= β1X1+ β2X2+ β1 , 2X1( X1+ [ δ2- δ1] ) + ε= ( β1+ β1 , 2[ δ2- δ1] ) X1+ β2X2+ β1 , 2X21+ ε
ระบุค่าของแตกต่างกันเล็กน้อยเมื่อเทียบกับ β 1เราสามารถรวบรวมรูปแบบนี้กับคำที่สุ่มจริงการเขียนβ1 , 2[ δ2- δ1]β1
Y= β1X1+ β2X2+ β1 , 2X21+ ( ε + β1 , 2[ δ2- δ1] X1)
ดังนั้นถ้าเราถอยหลังเทียบกับX 1 , X 2และX 2 1YX1, X2X21เราจะทำการผิดพลาด: การเปลี่ยนแปลงในส่วนที่เหลือจะขึ้นอยู่กับ (นั่นคือมันจะเป็นแบบheteroscedastic ) สิ่งนี้สามารถเห็นได้ด้วยการคำนวณผลต่างง่าย ๆ :X1
var(ε+β1,2[δ2−δ1]X1)=var(ε)+[β21,2var(δ2−δ1)]X21.
อย่างไรก็ตามหากการเปลี่ยนแปลงทั่วไปในมีนัยสำคัญเกินกว่าการเปลี่ยนแปลงทั่วไปในβ 1 , 2 [ δ 2 - δ 1 ] X 1 , heteroscedasticity นั้นจะต่ำมากจนไม่สามารถตรวจจับได้ (และควรให้แบบจำลองที่ดี) (ดังที่แสดงด้านล่างวิธีหนึ่งในการค้นหาการละเมิดสมมติฐานการถดถอยนี้คือการพล็อตค่าสัมบูรณ์ของส่วนที่เหลือเทียบกับค่าสัมบูรณ์ของXεβ1,2[δ2−δ1]X1ทะเบียนก่อนเพื่อสร้างมาตรฐาน X 1หากจำเป็น) นี่คือลักษณะที่เราต้องการ .X1X1
จำได้ว่าและX 2ถูกสันนิษฐานว่าเป็นมาตรฐานของความแปรปรวนของหน่วยนี่หมายถึงความแปรปรวนของδ 2 - δ 1X1X2δ2−δ1β1,2
ในระยะสั้นเมื่อตัวทำนายมีความสัมพันธ์กันและการโต้ตอบมีขนาดเล็ก แต่ไม่เล็กเกินไปคำที่เป็นกำลังสอง (ในตัวทำนายอย่างเดียว) และคำที่ใช้ในการโต้ตอบจะมีความหมายแยกกัน แต่จะสับสนกัน วิธีการทางสถิติเพียงอย่างเดียวไม่น่าจะช่วยให้เราตัดสินใจได้ว่าวิธีไหนดีกว่าที่จะใช้
ตัวอย่าง
β1,20.1150
ครั้งแรกรูปแบบสมการกำลังสอง :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03363 0.03046 1.104 0.27130
x1 0.92188 0.04081 22.592 < 2e-16 ***
x2 1.05208 0.04085 25.756 < 2e-16 ***
I(x1^2) 0.06776 0.02157 3.141 0.00204 **
Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808
0.068β1,2=0.1
x1 x2 I(x1^2)
3.531167 3.538512 1.009199
5
ถัดไปโมเดลที่มีการโต้ตอบแต่ไม่มีคำกำลังสอง:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02887 0.02975 0.97 0.333420
x1 0.93157 0.04036 23.08 < 2e-16 ***
x2 1.04580 0.04039 25.89 < 2e-16 ***
x1:x2 0.08581 0.02451 3.50 0.000617 ***
Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811
x1 x2 x1:x2
3.506569 3.512599 1.004566
ผลลัพธ์ทั้งหมดคล้ายกับผลลัพธ์ก่อนหน้า ทั้งคู่มีความดีพอ ๆ กัน (โดยมีข้อได้เปรียบเพียงเล็กน้อยต่อโมเดลการโต้ตอบ)
ท้ายที่สุดเราขอรวมทั้งการโต้ตอบและเงื่อนไขกำลังสอง :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02572 0.03074 0.837 0.404
x1 0.92911 0.04088 22.729 <2e-16 ***
x2 1.04771 0.04075 25.710 <2e-16 ***
I(x1^2) 0.01677 0.03926 0.427 0.670
x1:x2 0.06973 0.04495 1.551 0.123
Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981
x1 x2 I(x1^2) x1:x2
3.577700 3.555465 3.374533 3.359040
X1X2X21X1X2
หากเราพยายามตรวจจับความแตกต่างของความแข็งแรงในโมเดลกำลังสอง (อันแรก) เราจะต้องผิดหวัง:
|X1|