ในการถดถอยเชิงเส้นแบบหลายเหตุใดจึงเป็นไปได้ที่จะมีสถิติ F ที่มีความสำคัญสูง (p <.001) แต่มีค่า p สูงมากในการทดสอบ t ของ regressor ทั้งหมด?
ในแบบจำลองของฉันมีผู้ลงทะเบียน 10 ราย หนึ่งมีค่า p-0.1 และส่วนที่เหลืออยู่สูงกว่า 0.9
ในการถดถอยเชิงเส้นแบบหลายเหตุใดจึงเป็นไปได้ที่จะมีสถิติ F ที่มีความสำคัญสูง (p <.001) แต่มีค่า p สูงมากในการทดสอบ t ของ regressor ทั้งหมด?
ในแบบจำลองของฉันมีผู้ลงทะเบียน 10 ราย หนึ่งมีค่า p-0.1 และส่วนที่เหลืออยู่สูงกว่า 0.9
คำตอบ:
ในฐานะที่เป็น Rob กล่าวถึงสิ่งนี้จะเกิดขึ้นเมื่อคุณมีตัวแปรที่มีความสัมพันธ์สูง ตัวอย่างมาตรฐานที่ฉันใช้คือการทำนายน้ำหนักจากขนาดรองเท้า คุณสามารถทำนายน้ำหนักได้ดีพอ ๆ กับขนาดของรองเท้าขวาหรือซ้าย แต่ด้วยกันมันไม่ได้ผล
ตัวอย่างการจำลองสั้น ๆ
RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99
weights = 120 + rnorm(RSS, 10*RSS, 10)
##Fit a joint model
m = lm(weights ~ LSS + RSS)
##F-value is very small, but neither LSS or RSS are significant
summary(m)
##Fitting RSS or LSS separately gives a significant result.
summary(lm(weights ~ LSS))
ตัวแปรอิสระมีความสัมพันธ์กันน้อยมากในการทำให้เกิดสิ่งนี้
หากต้องการดูสาเหตุให้ลองทำดังนี้
วาดสิบเวกเตอร์สิบชุดด้วยค่าสัมประสิทธิ์ iid มาตรฐานปกติ
คำนวณสำหรับ9 สิ่งนี้ทำให้รายบุคคลมาตรฐานปกติ แต่มีความสัมพันธ์บางอย่างในหมู่พวกเขา
คำนวณ{10} โปรดทราบว่าy_9)
เพิ่มอิสระข้อผิดพลาดการกระจายตามปกติบางอย่างเพื่อWจากการทดลองเล็กน้อยฉันพบว่ากับทำงานได้ค่อนข้างดี ดังนั้นคือผลรวมของบวกข้อผิดพลาดบางอย่าง นอกจากนี้ยังเป็นผลรวมของบางส่วนของบวกข้อผิดพลาดเดียวกัน
เราจะพิจารณาให้เป็นตัวแปรอิสระและเป็นตัวแปรตาม
นี่คือเมทริกซ์กระจายของชุดข้อมูลหนึ่งชุดโดยมีอยู่ด้านบนและด้านซ้ายและดำเนินการตามลำดับ
ความสัมพันธ์คาดว่าในหมู่และเป็นเมื่อและมิฉะนั้น ค่าสหสัมพันธ์ที่รับรู้มีมากถึง 62% พวกมันปรากฏเป็นแผนการกระจายที่แน่นกว่าถัดจากแนวทแยง
ดูการถดถอยของเทียบกับ :
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
สถิติ F มีความสำคัญสูง แต่ไม่มีตัวแปรอิสระใด ๆ ถึงแม้ว่าจะไม่มีการปรับค่าใด ๆ สำหรับทั้ง 9 ตัวแปรก็ตาม
หากต้องการดูว่าเกิดอะไรขึ้นให้พิจารณาการถดถอยของเทียบกับเลขคี่:
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
ตัวแปรเหล่านี้บางอย่างมีความสำคัญสูงถึงแม้จะมีการปรับ Bonferroni (มีอีกมากมายที่สามารถพูดได้โดยดูผลลัพธ์เหล่านี้ แต่มันจะพาเราออกไปจากจุดหลัก)
สัญชาตญาณเบื้องหลังนี้คือขึ้นอยู่กับชุดย่อยของตัวแปรเป็นหลัก (แต่ไม่จำเป็นต้องเป็นชุดย่อยที่ไม่ซ้ำกัน) ส่วนประกอบของชุดย่อยนี้ ( ) ไม่จำเป็นต้องเพิ่มข้อมูลใด ๆ เกี่ยวกับเนื่องจากความสัมพันธ์ - เล็กน้อย - กับเซตย่อยเองy 2 , y 4 , y 6 , y 8 z
การเรียงลำดับของสถานการณ์เช่นนี้จะเกิดขึ้นในการวิเคราะห์อนุกรมเวลา เราสามารถพิจารณาตัวห้อยเป็นเวลา การสร้างทำให้เกิดความสัมพันธ์แบบอนุกรมระยะสั้นในหมู่พวกเขาคล้ายกับอนุกรมเวลาจำนวนมาก ด้วยเหตุนี้เราจึงสูญเสียข้อมูลเพียงเล็กน้อยโดยการสุ่มซีรีส์ใหม่ในช่วงเวลาปกติ
ข้อสรุปหนึ่งที่เราสามารถดึงมาได้จากสิ่งนี้คือเมื่อตัวแปรมากเกินไปรวมอยู่ในแบบจำลองพวกเขาสามารถปกปิดสิ่งที่สำคัญอย่างแท้จริง สัญญาณแรกของสิ่งนี้คือสถิติ F โดยรวมที่มีความสำคัญสูงพร้อมกับการทดสอบทีที่ไม่สำคัญสำหรับค่าสัมประสิทธิ์ของแต่ละบุคคล (แม้ว่าตัวแปรบางตัวมีความสำคัญเป็นรายบุคคล แต่ก็ไม่ได้หมายความว่าตัวแปรอื่นจะไม่ได้โดยอัตโนมัตินั่นคือหนึ่งในข้อบกพร่องพื้นฐานของกลยุทธ์การถดถอยแบบขั้นตอน: พวกเขาตกเป็นเหยื่อของปัญหาการหลอกลวงนี้) โดยบังเอิญปัจจัยเงินเฟ้อที่แปรปรวนในช่วงการถดถอยครั้งแรกจาก 2.55 ถึง 6.09 ด้วยค่าเฉลี่ย 4.79: เพียงแค่เส้นเขตแดนของการวินิจฉัยพหุความสัมพันธ์บางอย่างตามกฎหัวโบราณที่สุดของนิ้วหัวแม่มือ; ต่ำกว่าขีด จำกัด ตามกฎอื่น ๆ (โดยที่ 10 คือการตัดยอดบน)
สิ่งนี้จะเกิดขึ้นเมื่อตัวทำนายมีความสัมพันธ์สูง ลองนึกภาพสถานการณ์ที่มีเพียงสองตัวทำนายที่มีความสัมพันธ์สูงมาก ทั้งคู่ยังสัมพันธ์อย่างใกล้ชิดกับตัวแปรตอบกลับ ดังนั้นการทดสอบ F มีค่า p ต่ำ (กล่าวกันว่าตัวทำนายร่วมกันมีความสำคัญอย่างสูงในการอธิบายความแปรปรวนในตัวแปรตอบสนอง) แต่การทดสอบทีสำหรับตัวทำนายแต่ละตัวมีค่า p สูงเพราะหลังจากอนุญาตให้มีผลกระทบของตัวทำนายอื่น ๆ แล้วก็ไม่มีเหลือให้อธิบายอีกมาก
คุณบอกว่าคุณเข้าใจปัญหาของตัวแปรที่มีความสัมพันธ์และการถดถอยนั้นไม่มีนัยสำคัญที่ดีกว่า มันอาจหมายความว่าคุณถูก จำกัด ด้วยการกล่าวถึงความสัมพันธ์แบบหลายจุด แต่คุณจะต้องเพิ่มความเข้าใจในเรขาคณิตอย่างน้อยกำลังสอง
คำหลักที่ใช้ในการค้นหาคือ "collinearity" หรือ "multicollinearity" สิ่งนี้สามารถตรวจพบได้โดยใช้การวินิจฉัยเช่นVariance Inflation Factors (VIFs) หรือวิธีการตามที่อธิบายไว้ในตำรา"การวินิจฉัยการถดถอย: การระบุข้อมูลที่มีอิทธิพลและแหล่งที่มาของการ Collinearity"โดย Belsley, Kuh และ Welsch VIFs เป็นเรื่องง่ายที่จะเข้าใจ แต่พวกเขาไม่สามารถจัดการกับ collinearity ที่เกี่ยวข้องกับการตัด (เช่นการพยากรณ์ที่เกือบจะคงที่ด้วยตัวเองหรือในการรวมกันเชิงเส้น) - ตรงกันข้ามวินิจฉัย BKW อยู่ห่างไกลที่ใช้งานง่ายน้อย แต่สามารถจัดการกับ collinearity ที่เกี่ยวข้องกับ การสกัดกั้น
คำตอบที่คุณได้รับขึ้นอยู่กับคำถามที่คุณถาม นอกเหนือจากที่ได้ทำไปแล้วค่าแต่ละพารามิเตอร์ค่า F และค่า F รุ่นโดยรวมจะตอบคำถามต่าง ๆ กันดังนั้นพวกเขาจึงได้คำตอบที่แตกต่างกัน ฉันได้เห็นสิ่งนี้เกิดขึ้นแม้ว่าค่า F แต่ละค่าจะไม่ใกล้เคียงอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งหากแบบจำลองมีค่ามากกว่า 2 หรือ 3 IV ฉันไม่รู้วิธีใดที่จะรวมค่า p แต่ละค่าเข้ากับค่าใด ๆ ที่มีความหมายแม้ว่าอาจมีวิธีก็ตาม
สิ่งหนึ่งที่ต้องจำไว้คือการทดสอบค่าสัมประสิทธิ์ของแต่ละคนคิดว่าตัวทำนายอื่น ๆ ทั้งหมดอยู่ในแบบจำลอง กล่าวอีกนัยหนึ่งตัวทำนายแต่ละตัวไม่สำคัญตราบใดที่ตัวทำนายอื่น ๆ ทั้งหมดอยู่ในแบบจำลอง จะต้องมีการโต้ตอบหรือการพึ่งพาซึ่งกันและกันระหว่างตัวทำนายสองตัวหรือมากกว่าของคุณ
ตามที่คนอื่นถามไว้ข้างต้น - คุณวินิจฉัยปัญหาการขาดความหลากหลายทางชีวภาพได้อย่างไร?
วิธีหนึ่งในการทำความเข้าใจนี้เป็นรูปทรงเรขาคณิตของสี่เหลี่ยมน้อยที่สุดตามที่ @StasK แนะนำ
อีกเรื่องหนึ่งคือการตระหนักว่า X หมายถึง X ที่เกี่ยวข้องกับ Y เมื่อควบคุมตัวแปรอื่น แต่ไม่ใช่เพียงอย่างเดียว คุณบอกว่า X เกี่ยวข้องกับความแปรปรวนที่ไม่ซ้ำกันใน Y สิ่งนี้ถูกต้อง แม้ว่าความแปรปรวนที่ไม่ซ้ำกันใน Y นั้นแตกต่างจากความแปรปรวนทั้งหมด แล้วตัวแปรอื่น ๆ ที่ลบออกคืออะไร?
มันจะช่วยถ้าคุณบอกตัวแปรของคุณกับเราได้