ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?


45

ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม:

  1. ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ?
  2. ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว?
  3. ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า
  4. การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

6
คำตอบของคำถามบางคำถามของคุณปรากฏในหัวข้ออื่น ๆ เช่นที่stats.stackexchange.com/a/14528ซึ่งอธิบายถึงสถานการณ์ที่ทุก ๆชุดคำทำนายที่มีความสัมพันธ์เพียงเล็กน้อยนั้นดูเหมือนจะไม่มีนัยสำคัญแม้ว่าพวกเขาจะอยู่รวมกัน ในรูปแบบ เป็นชุดคำถามที่ดี แต่นำไปสู่การพิจารณาและเทคนิคเป็นจำนวนมาก มีการเขียนหนังสือทั้งเล่มเกี่ยวกับพวกเขา ดูตัวอย่างเช่นแฟรงก์ฮาร์เรลของกลยุทธ์การสร้างแบบจำลองการถดถอย
whuber

1
เมื่อใช้ขนาดบ้านและห้องนอนคุณจะเห็นว่าไม่มีการรับประกันความสำคัญหากความสัมพันธ์แตกต่างจาก 1 หรือ -1 ที่จริงแล้วมีบ้านแบบ 2 ห้องนอนและ 3 ห้องนอนที่มีขนาดเท่ากันและค่าใช้จ่ายอาจแตกต่างกัน อย่างไรก็ตามขนาดในตารางเมตรและขนาดในตารางฟุตมีความสัมพันธ์ = 1 และหนึ่งในนั้นสามารถลดลงได้เสมอ
Pere

คำตอบ:


38

หัวข้อที่คุณจะถามเกี่ยวกับการเป็นพหุ คุณอาจต้องการอ่านเธรดบางตัวใน CV ที่จัดหมวดหมู่ภายใต้แท็ก@ คำตอบของ whuber ที่ลิงค์ด้านบนโดยเฉพาะอย่างยิ่งยังคุ้มค่ากับเวลาของคุณ


การยืนยันว่า "ถ้าสองตัวทำนายมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ" ไม่ถูกต้อง หากมีผลกระทบที่แท้จริงของตัวแปรความน่าจะเป็นที่ตัวแปรจะมีนัยสำคัญคือฟังก์ชันของสิ่งต่าง ๆ เช่นขนาดของผลกระทบขนาดของความแปรปรวนข้อผิดพลาดความแปรปรวนของตัวแปรปริมาณข้อมูล คุณมีและจำนวนของตัวแปรอื่น ๆ ในรูปแบบ ไม่ว่าจะเป็นตัวแปรที่มีความสัมพันธ์ก็มีความเกี่ยวข้องเช่นกัน แต่ก็ไม่ได้แทนที่ข้อเท็จจริงเหล่านี้ พิจารณาการสาธิตอย่างง่ายต่อไปนี้ในR:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

ยังไม่มีข้อความ


X1X2R2X11/(1-R2)X110X110×X1

การคิดเกี่ยวกับสิ่งที่จะเกิดขึ้นหากคุณรวมทั้งตัวแปรที่สัมพันธ์กันและมีเพียงหนึ่งตัวที่คล้ายคลึงกัน แต่มีความซับซ้อนกว่าวิธีที่กล่าวถึงข้างต้นเล็กน้อย นี่เป็นเพราะไม่รวมตัวแปรหมายถึงโมเดลใช้องศาอิสระที่น้อยกว่าซึ่งเปลี่ยนความแปรปรวนที่เหลือและทุกอย่างที่คำนวณได้จากนั้น (รวมถึงความแปรปรวนของสัมประสิทธิ์การถดถอย) นอกจากนี้หากตัวแปรที่ไม่รวมมีความเกี่ยวข้องกับการตอบสนองความแปรปรวนในการตอบสนองเนื่องจากตัวแปรนั้นจะรวมอยู่ในความแปรปรวนที่เหลือทำให้มีขนาดใหญ่กว่าที่อื่น ดังนั้นสิ่งต่าง ๆ เปลี่ยนแปลงพร้อมกัน (ตัวแปรมีความสัมพันธ์หรือไม่กับตัวแปรอื่นและความแปรปรวนที่เหลือ) และผลที่แม่นยำของการลดลง / รวมถึงตัวแปรอื่น ๆ จะขึ้นอยู่กับวิธีการแลกเปลี่ยนเหล่านั้น


ด้วยความเข้าใจของ VIF นี่คือคำตอบสำหรับคำถามของคุณ:

  1. เนื่องจากความแปรปรวนของการกระจายตัวตัวอย่างของสัมประสิทธิ์การถดถอยจะมีขนาดใหญ่ขึ้น (โดยปัจจัยของ VIF) ถ้ามันมีความสัมพันธ์กับตัวแปรอื่น ๆ ในรูปแบบค่า p จะมีค่าสูงกว่า (เช่นมีนัยสำคัญน้อยกว่า) .
  2. ความแปรปรวนของสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นดังที่ได้กล่าวไปแล้ว
  3. Y
  4. ค่าที่คาดการณ์และความแปรปรวนของพวกเขาจะเปลี่ยนแปลงอย่างไรนั้นค่อนข้างซับซ้อน ขึ้นอยู่กับความสัมพันธ์ของตัวแปรและลักษณะที่สัมพันธ์กับตัวแปรตอบสนองของคุณในข้อมูลของคุณ เกี่ยวกับปัญหานี้อาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?

5

นี่เป็นความคิดเห็นมากกว่า แต่ฉันต้องการรวมกราฟและโค้ดบางส่วน

ฉันคิดว่าคำว่า "หากผู้ทำนายสองคนมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในแบบจำลองหนึ่งจะไม่มีนัยสำคัญ" เป็นเท็จถ้าคุณหมายถึง "เพียงคนเดียว" ไม่สามารถใช้นัยสำคัญทางสถิติไบนารีสำหรับการเลือกตัวแปร

นี่คือตัวอย่างที่ฉันใช้โดยการลดลงของเปอร์เซ็นต์ไขมันในร่างกายที่เส้นรอบวงต้นขาความหนาของผิวหนังเท่า * และเส้นรอบวงแขนกลาง:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่คุณเห็นจากตารางการถดถอยทุกอย่างไม่สำคัญแม้ว่าค่า p จะแตกต่างกันเล็กน้อย

β

แล้วเราจะรู้ได้อย่างไรว่าตัวทำนายใดจะมีความสำคัญน้อยกว่า การเปลี่ยนแปลงใน regressor สามารถแบ่งได้เป็นสองประเภท:

  1. การเปลี่ยนแปลงที่ไม่ซ้ำกันสำหรับแต่ละ regressor
  2. การเปลี่ยนแปลงที่ใช้ร่วมกันโดย regressors

R2


* การพับของผิวหนังคือความกว้างของการพับของผิวหนังที่ถูกยึดผ่านกล้ามเนื้อ triceps และวัดโดยใช้คาลิปเปอร์


ฉันชอบตัวอย่างของคุณ แต่การพูดอย่างเคร่งครัดมันจะเป็นตัวอย่างถ้าคำสั่งในคำถามเดิมบอกว่า "ถ้า [... ] เพียงอันเดียวจะไม่มีนัยสำคัญ" แต่มันไม่มีคำว่า "เท่านั้น"
อะมีบาพูดว่า Reinstate Monica

@amoeba นั่นเป็นจุดที่ยอดเยี่ยม ฉันจะแก้ไขความคิดเห็นของฉัน
Dimitriy V. Masterov

คุณสามารถให้สูตรบางอย่างเพื่ออธิบายเพิ่มเติม: "ในการประมาณค่าสัมประสิทธิ์ของ regressor แต่ละตัวจะใช้เพียงอันแรกเท่านั้นรูปแบบทั่วไปจะถูกละเว้นเนื่องจากไม่สามารถจัดสรรได้"
mac

3

ตามที่ @whuber ระบุไว้นี่เป็นคำถามที่ซับซ้อน อย่างไรก็ตามประโยคแรกของโพสต์ของคุณนั้นง่ายมาก มันมักจะเป็นกรณีที่สอง (หรือมากกว่า) ตัวแปรจะมีความสัมพันธ์และทั้งสองเกี่ยวข้องกับตัวแปรตาม ไม่ว่าจะมีความสำคัญหรือไม่ขึ้นอยู่กับขนาดของเอฟเฟกต์และขนาดของเซลล์

ในตัวอย่างของคุณสมมติว่าสำหรับบ้านขนาดที่กำหนดผู้คนต้องการห้องที่น้อยลง (อย่างน้อยใน NYC นี่ไม่ใช่เหตุผล - มันจะบ่งบอกถึงอาคารที่เก่ากว่าผนังที่แข็งกว่า ฯลฯ และอาจเป็นเครื่องหมายสำหรับพื้นที่ใกล้เคียง) จากนั้นทั้งสองอาจมีความหมายในทิศทางตรงกันข้าม!

หรือสมมติว่าทั้งสองตัวแปรมีขนาดบ้านและพื้นที่ใกล้เคียง - สิ่งเหล่านี้จะมีความสัมพันธ์กันแน่นอนว่าบ้านที่ใหญ่กว่าในละแวกใกล้เคียงที่ดีกว่า - แต่พวกเขายังคงมีความสำคัญทั้งสองและจะต้องเกี่ยวข้องกับราคาบ้านแน่นอน

นอกจากนี้ยังใช้ความซับซ้อนของมาสก์ที่ "สัมพันธ์" เท่านั้น ตัวแปรสามารถเกี่ยวข้องอย่างยิ่งโดยไม่มีความสัมพันธ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.