การวินิจฉัยความผิดพลาดนั้นเป็นปัญหาเฉพาะเมื่อรวมคำศัพท์ไว้ด้วยกัน


26

ฉันใช้การถดถอยของเขตปกครองของสหรัฐอเมริกาและกำลังตรวจสอบความเป็นคู่ในตัวแปร 'อิสระ' ของฉัน การวินิจฉัยการถดถอยของ Belsley, Kuh และ Welsch แนะนำให้ดูที่ดัชนีสภาพและสัดส่วนการสลายตัวผลต่าง:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif แนะนำว่า VIFs> 5 เป็นปัญหา:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

ในขณะที่การวินิจฉัยการถดถอยของ John Fox แนะนำให้ดูที่รากที่สองของ VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

ในสองกรณีแรก (ที่แนะนำให้มีการตัดยอดที่ชัดเจน) โมเดลจะมีปัญหาเฉพาะเมื่อรวมระยะเวลาการโต้ตอบไว้ด้วย

โมเดลที่มีคำศัพท์การโต้ตอบได้จนถึงจุดนี้เป็นข้อกำหนดที่ฉันต้องการ

ฉันมีคำถามสองข้อที่ให้ข้อมูลที่แปลกประหลาดนี้:

  1. คำที่ใช้ในการตอบโต้นั้นมีความซ้ำซ้อนกับข้อมูลมากขึ้นหรือไม่?
  2. เนื่องจากตัวแปรสองตัวที่ไม่มีคำโต้ตอบไม่เกินขีด จำกัด ฉันจึงใช้โมเดลที่มีคำโต้ตอบ โดยเฉพาะเหตุผลที่ฉันคิดว่าสิ่งนี้อาจโอเคคือฉันใช้วิธี King, Tomz และ Wittenberg (2000) เพื่อตีความค่าสัมประสิทธิ์ (ตัวแบบทวินามลบ) ซึ่งโดยทั่วไปฉันถือค่าสัมประสิทธิ์อื่น ๆ ที่ค่าเฉลี่ยแล้ว ตีความสิ่งที่เกิดขึ้นกับการคาดการณ์ของตัวแปรตามของฉันเมื่อฉันย้ายinc09_10kและunins09รอบ ๆ อย่างอิสระและร่วมกัน

คำตอบ:


31

ใช่นี่เป็นกรณีที่มีการโต้ตอบที่ไม่อยู่ตรงกลาง ดูอย่างรวดเร็วว่าเกิดอะไรขึ้นกับความสัมพันธ์ของตัวแปรอิสระสองตัวและ "การโต้ตอบ"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

และเมื่อคุณอยู่ตรงกลาง:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

อนึ่งเดียวกันสามารถเกิดขึ้นได้กับการรวมคำพหุนาม (เช่น ) โดยไม่ต้องอยู่ตรงกลางครั้งแรกX, X2, ...

ดังนั้นคุณสามารถถ่ายภาพคู่นั้นได้


ทำไมการตั้งศูนย์ช่วย - แต่เรากลับไปที่คำจำกัดความความแปรปรวนร่วม

Cov(X,XY)=E[(XE(X))(XYE(XY))]=E[(Xμx)(XYμxy)]=E[X2YXμxyXYμx+μxμxy]=E[X2Y]E[X]μxyE[XY]μx+μxμxy

แม้จะได้รับเอกราชของ X และ Y

=E[X2]E[Y]μxμxμyμxμyμx+μxμxμy=(σx2+μx2)μyμx2μy=σx2μy

สิ่งนี้ไม่เกี่ยวข้องโดยตรงกับปัญหาการถดถอยของคุณเนื่องจากคุณอาจไม่มีและเป็นอิสระอย่างสมบูรณ์และเนื่องจากความสัมพันธ์ระหว่างตัวแปรอธิบายสองตัวนั้นไม่ได้ส่งผลให้เกิดปัญหาความสัมพันธ์แบบหลายค่าเสมอในการถดถอย แต่จะแสดงให้เห็นว่าการโต้ตอบระหว่างสองตัวแปรอิสระที่ไม่ได้เป็นศูนย์กลางที่ทำให้เกิดความสัมพันธ์ที่จะแสดงขึ้นและความสัมพันธ์ที่อาจก่อให้เกิดปัญหาพหุXY


สังหรณ์ใจให้ฉันมีตัวแปรที่ไม่ใช่ศูนย์กลางโต้ตอบก็หมายความว่าเมื่อมีขนาดใหญ่แล้วยังเป็นไปได้ที่ใหญ่กว่าในระดับที่แน่นอนโดยไม่คำนึงถึงและและจะสิ้นสุดความสัมพันธ์และในทำนองเดียวกันสำหรับYXXYYXXYY


น่าสนใจขอบคุณ คุณมีคำอธิบายหรือการอ้างอิงว่าเพราะเหตุใดการจัดกึ่งกลางจึงสำคัญ
Ari B. Friedman

ฉันคิดว่า - เป็นคำตอบนี้ไม่สมควรได้รับรางวัลทั้งหมด แต่ฉันต้องการให้ครึ่งรางวัล ไม่แน่ใจว่าจะเกิดขึ้นเว้นแต่จะมีการลงคะแนนครั้งที่สองแม้ว่า: - /
Ari B. Friedman

1
@ AriB.Friedman คุณไม่มีทางเลือกที่จะให้เงินครึ่งหนึ่งได้ คุณไม่สามารถมอบรางวัลให้คุณได้ (แม้ว่าคุณจะเสียตัวแทนไปทั้งสองทาง) และโพสต์นี้อาจได้รับรางวัลครึ่งรางวัลโดยอัตโนมัติ (ดูหัวข้อที่เกี่ยวข้องในหน้าความช่วยเหลือ ) อย่างไรก็ตามทำไมคำตอบนี้ไม่สมควรได้รับความโปรดปราน? Affine อยู่ตรงนี้ (+1)
gung - Reinstate Monica

@gung ฉันกำลังแก้ไขล่วงหน้า สมควรได้รับมันแน่นอน ขอบคุณ @Affine! ในส่วนของค่าหัวครึ่งความเข้าใจของฉันคือ>=+2 คำตอบจะได้รับครึ่งรางวัลถ้ารางวัลนั้นไม่ได้รับรางวัลด้วยตนเอง
Ari B. Friedman

@ AriB.Friedman ถูกต้อง แต่ก่อนที่ฉันจะแสดงความคิดเห็น (& upvoted และคนอื่นทำได้เช่นกัน) เขาไม่มี 2+ upvotes
gung - Reinstate Monica

0

ฉันพบสิ่งตีพิมพ์ต่อไปนี้ในหัวข้อนี้มีประโยชน์:

Robinson & Schumacker (2009): ผลกระทบจากการปฏิสัมพันธ์: การจัดกึ่งกลางปัจจัยเงินเฟ้อที่แปรปรวนและปัญหาการตีความ

'ผลกระทบของการคาดการณ์การทำนายต่อค่าสัมประสิทธิ์ของสมการการถดถอย (การแก้ปัญหาแบบกึ่งกลางกับการไม่เจาะจงและการโต้ตอบแบบลำดับสูงกว่า (การสื่อสารแบบ 3 ทาง; ถูกนำมาใช้ในสมการถดถอยพร้อมกับเงื่อนไขการโต้ตอบเมื่อตัวแปรไม่ได้อยู่กึ่งกลาง '

Afshartous & Preston (2011): ผลลัพธ์หลักของแบบจำลองการโต้ตอบที่มีศูนย์กลางอยู่ที่

'แรงจูงใจในการใช้การจัดกึ่งกลางตัวแปรรวมถึงการปรับปรุงการตีความค่าสัมประสิทธิ์และลดความไม่แน่นอนเชิงตัวเลขสำหรับการประมาณค่าที่สัมพันธ์กับความหลากหลายทางชีวภาพ'

เห็นได้ชัดว่าไอเก็นและเวสต์ (1991) ยังครอบคลุมหัวข้อนี้ แต่ฉันไม่มีหนังสือของพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.