ในการถดถอยเชิงเส้นเหตุใดเราจึงควรรวมเทอมกำลังสองเมื่อเราสนใจเฉพาะเงื่อนไขการโต้ตอบ


10

สมมติว่าฉันสนใจโมเดลการถดถอยเชิงเส้นสำหรับ

Yi=β0+β1x1+β2x2+β3x1x2
เพราะฉันต้องการดูว่าปฏิสัมพันธ์ระหว่าง covariates ทั้งสองมีผลต่อ Y หรือไม่

ในบันทึกรายวิชาของอาจารย์ (ซึ่งฉันไม่ได้ติดต่อด้วย) จะกล่าวถึง: เมื่อรวมถึงคำศัพท์เชิงโต้ตอบคุณควรรวมคำศัพท์ระดับปริญญาที่สองของพวกเขาไว้ด้วย กล่าวคือ

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22
ควรรวมอยู่ในการถดถอย

ทำไมหนึ่งควรรวมถึงข้อกำหนดระดับที่สองเมื่อเราสนใจเฉพาะการโต้ตอบ?


7
หากโมเดลมี x1x2มันควรจะรวมถึง x1 และ x2. แต่x12 และ x22เป็นตัวเลือก
user158565

6
ความคิดเห็นของอาจารย์ของคุณดูเหมือนจะผิดปกติ มันอาจเกิดจากภูมิหลังเฉพาะหรือชุดของประสบการณ์เพราะ "ควร" ไม่ใช่ข้อกำหนดทั่วไปที่แน่นอน คุณอาจพบstats.stackexchange.com/questions/11009เป็นที่สนใจ
whuber

@ user158565 สวัสดี! ฉันขอถามได้ไหมว่าทำไมเราควรรวมx1 และ x2? ตอนแรกฉันไม่ได้คิดอย่างนั้น แต่ตอนนี้คุณพูดถึงมันแล้ว .. !
fool126

@whuber สวัสดี! ขอบคุณสำหรับลิงค์! ฉันคิดว่าการรวมเอฟเฟกต์หลักเข้ากันได้ดี แต่ฉันมีปัญหาในการขยายคำว่าต้องรวมคำสั่งที่สอง // user158565 ฉันคิดว่าลิงก์ด้านบนตอบว่าขอบคุณ!
fool126

คุณช่วยโพสต์ลิงค์ไปยังข้อมูลได้ไหม?
James Phillips

คำตอบ:


8

มันขึ้นอยู่กับเป้าหมายของการอนุมาน หากคุณต้องการอนุมานว่ามีการโต้ตอบอยู่หรือไม่ในบริบทเชิงสาเหตุ (หรือโดยทั่วไปถ้าคุณต้องการตีความสัมประสิทธิ์การโต้ตอบ) คำแนะนำนี้จากอาจารย์ของคุณจะสมเหตุสมผลและมันมาจาก ความจริงที่ว่าmisspecification ของรูปแบบการทำงานที่สามารถนำไปสู่ข้อสรุปที่ผิดเกี่ยวกับการมีปฏิสัมพันธ์

นี่คือตัวอย่างง่ายๆที่ไม่มีการโต้ตอบระหว่างคำ x1 และ x2 ในสมการโครงสร้างของ yแต่ถ้าคุณไม่รวมคำกำลังสองของ x1คุณจะสรุปผิดอย่างนั้น x1 โต้ตอบกับ x2 เมื่อในความเป็นจริงมันไม่ได้

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

สิ่งนี้สามารถตีความได้ว่าเป็นกรณีของตัวแปรอคติที่ละเว้นและที่นี่ x12เป็นตัวแปรที่ละเว้น หากคุณย้อนกลับไปและรวมคำที่ยกกำลังสองในการถดถอยของคุณการโต้ตอบที่ชัดเจนจะหายไป

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

แน่นอนว่าการใช้เหตุผลนี้ไม่เพียง แต่จะนำมาใช้กับข้อตกลงกำลังสอง แต่ยังขาดความชัดเจนของรูปแบบการทำงานโดยทั่วไป เป้าหมายที่นี่คือการสร้างแบบจำลองฟังก์ชั่นการคาดการณ์ตามเงื่อนไขอย่างเหมาะสมเพื่อประเมินการมีปฏิสัมพันธ์ หากคุณ จำกัด ตัวเองในการสร้างแบบจำลองด้วยการถดถอยเชิงเส้นคุณจะต้องรวมคำที่ไม่เชิงเส้นเหล่านี้ด้วยตนเอง แต่ทางเลือกคือการใช้การสร้างแบบจำลองการถดถอยที่ยืดหยุ่นมากขึ้นเช่นเคอร์เนลริดจ์การถดถอยเป็นต้น


ขอขอบคุณ @CarlosCinelli โดยสรุปคุณกำลังพูดว่าเราควรรวมข้อกำหนดในระดับเดียวกัน - เพื่อพิจารณาการผิดพลาดที่อาจเกิดขึ้นของแบบฟอร์มการทำงาน - และให้การถดถอยตัดสินว่าคำใดมีความสำคัญ?
fool126

3
@KevinC คำถามหลักที่นี่คือ: คุณต้องการตีความคำศัพท์การโต้ตอบหรือไม่? หากคุณทำเช่นนั้นการผิดพลาดของแบบฟอร์มการทำงานนั้นเป็นปัญหาที่แท้จริง การเพิ่มคำศัพท์กำลังสองเป็นเพียงวิธีง่าย ๆ ในการจับภาพแบบไม่เชิงเส้น แต่ปัญหาทั่วไปคือการสร้างแบบจำลองฟังก์ชันการคาดการณ์ตามเงื่อนไขอย่างเหมาะสม
Carlos Cinelli

1
กรุณาอย่ารวมrm(list=ls())อยู่ในรหัสโพสต์ที่นี่! หากผู้คนเพียงคัดลอกและวางและเรียกใช้รหัสพวกเขาอาจประหลาดใจ ... ฉันลบออกตอนนี้
kjetil b halvorsen

3

ทั้งสองรุ่นที่คุณระบุไว้ในคำตอบสามารถแสดงอีกครั้งเพื่อให้ชัดเจนว่าผลกระทบของX1 ถูกอ้างถึงว่าขึ้นอยู่กับ X2 (หรือวิธีอื่น ๆ ) ในแต่ละรุ่น

โมเดลแรกสามารถแสดงซ้ำได้เช่นนี้:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

ซึ่งแสดงให้เห็นว่าในรุ่นนี้ X1 จะถือว่ามีผลเชิงเส้นบน Y การควบคุมผลกระทบของ X2) แต่ขนาดของเอฟเฟกต์เชิงเส้นนี้ - ถูกจับโดยค่าสัมประสิทธิ์ความชันของ X1 - เปลี่ยนเป็นเส้นตรงเป็นฟังก์ชันของ X2. ตัวอย่างเช่นผลกระทบของX1 บน Y อาจเพิ่มขนาดเมื่อค่าของ X2 เพิ่มขึ้น.

โมเดลที่สองสามารถแสดงซ้ำได้เช่นนี้:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

ซึ่งแสดงให้เห็นว่าในรูปแบบนี้ผลกระทบของ X1 บน Y การควบคุมผลกระทบของ X2) ถือว่าเป็นกำลังสองมากกว่าเชิงเส้น เอฟเฟกต์กำลังสองนี้ถูกจับโดยรวมทั้งสองอย่างX1 และ X12ในรูปแบบ ในขณะที่ค่าสัมประสิทธิ์ของX12 จะถือว่าเป็นอิสระจาก X2สัมประสิทธิ์ของ X1 จะถือว่าขึ้นอยู่กับเส้นตรง X2.

การใช้แบบจำลองทั้งสองจะบอกเป็นนัยว่าคุณกำลังตั้งสมมติฐานที่แตกต่างอย่างสิ้นเชิงเกี่ยวกับลักษณะของผลกระทบของ X1 บน Y การควบคุมผลกระทบของ X2)

โดยปกติแล้วคนจะพอดีกับรุ่นแรก จากนั้นพวกเขาอาจพล็อตสิ่งที่เหลือจากแบบจำลองนั้นX1 และ X2ในทางกลับกัน หากส่วนที่เหลือเปิดเผยรูปแบบสมการกำลังสองในส่วนที่เหลือเป็นฟังก์ชั่นของX1 และ / หรือ X2แบบจำลองสามารถเพิ่มได้ตามลำดับเพื่อให้มี X12 และ / หรือ X22 (และอาจเป็นการโต้ตอบของพวกเขา)

โปรดทราบว่าฉันลดความซับซ้อนของสัญกรณ์ที่คุณใช้เพื่อความสอดคล้องและทำให้ข้อความแสดงข้อผิดพลาดชัดเจนทั้งสองรุ่น


2
สวัสดี @ IsabellaGhement ขอขอบคุณสำหรับคำอธิบายของคุณ โดยสรุปแล้วไม่มี "กฎ" จริงๆที่เราควรเพิ่มคำที่ใช้กำลังสองถ้าเรารวมคำการโต้ตอบ ในตอนท้ายของวันมันกลับมาถึงสมมติฐานที่เราทำเกี่ยวกับแบบจำลองของเราและผลลัพธ์ของการวิเคราะห์ของเรา (เช่นแปลงที่เหลือ) ถูกต้องหรือไม่ ขอบคุณอีกครั้ง :)!
fool126

2
ถูกต้องเควิน! ไม่มี "กฎ" เนื่องจากชุดข้อมูลแต่ละชุดนั้นแตกต่างกันและยังมีไว้เพื่อตอบคำถามที่แตกต่างกัน นี่คือเหตุผลที่เราจำเป็นต้องตระหนักว่าแต่ละโมเดลที่เราเหมาะสมกับชุดข้อมูลนั้นแสดงถึงสมมติฐานที่แตกต่างกันซึ่งจำเป็นต้องได้รับการสนับสนุนจากข้อมูลเพื่อให้เราเชื่อมั่นในผลลัพธ์ของโมเดล พล็อตการวิเคราะห์โมเดล (เช่นพล็อตของส่วนที่เหลือเทียบกับค่าติดตั้ง) ช่วยให้เราตรวจสอบความถูกต้องของข้อมูล (ถ้ามี) - สนับสนุนสมมติฐานของโมเดล
Isabella Ghement

1
@KevinC: เยี่ยมมาก! สุขสันต์วันหยุดสำหรับคุณเช่นกันเควิน! ☃🎉🎁🎈
Isabella Ghement
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.