คุณไม่สามารถพูดถึงความสำคัญในกรณีนี้ได้โดยไม่มีข้อผิดพลาดมาตรฐาน มันปรับขนาดด้วยตัวแปรและค่าสัมประสิทธิ์ ยิ่งไปกว่านั้นสัมประสิทธิ์แต่ละอย่างจะมีเงื่อนไขตามตัวแปรอื่น ๆ ในตัวแบบและความจริง collinearity ดูเหมือนจะขยายความสำคัญของ hp และ disp
การลดขนาดตัวแปรไม่ควรเปลี่ยนความสำคัญของผลลัพธ์เลย ที่จริงเมื่อฉันรันการถดถอยใหม่ (ด้วยตัวแปรตามที่เป็นอยู่และทำให้เป็นมาตรฐานโดยการลบค่าเฉลี่ยและหารด้วยข้อผิดพลาดมาตรฐาน) การประมาณค่าสัมประสิทธิ์แต่ละตัว (ยกเว้นค่าคงที่) มีค่า t-stat เหมือนกันทุกประการ การทดสอบ F ของนัยสำคัญโดยรวมยังคงเหมือนเดิม
นั่นคือแม้ว่าเมื่อตัวแปรทั้งหมดได้รับการปรับให้มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของ 1 จะไม่มีข้อผิดพลาดมาตรฐานขนาดเดียวสำหรับแต่ละสัมประสิทธิ์การถดถอยดังนั้นเพียงแค่ดูขนาดของสัมประสิทธิ์แต่ละตัวใน การถดถอยมาตรฐานยังคงทำให้เข้าใจผิดเกี่ยวกับความสำคัญ
ดังที่ David Masip อธิบายว่าขนาดของสัมประสิทธิ์มีความสัมพันธ์แบบผกผันกับขนาดของจุดข้อมูล แต่แม้ว่าค่าสัมประสิทธิ์ในการแจกจ่ายและ hp มีขนาดใหญ่พวกเขาก็ยังไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญ
ในความเป็นจริง hp และ disp มีความสัมพันธ์กันอย่างมาก r = .79 ดังนั้นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์เหล่านั้นจึงสูงเป็นพิเศษเมื่อเทียบกับขนาดสัมประสิทธิ์เนื่องจากมีค่า collinear ในการถดถอยนี้พวกเขากำลังทำการถ่วงดุลแปลก ๆ ซึ่งเป็นเหตุผลว่าทำไมคนถึงมีสัมประสิทธิ์เป็นบวกและอีกคนมีสัมประสิทธิ์เป็นลบ ดูเหมือนว่าเป็นเรื่องของการบรรจุมากเกินไปและดูเหมือนจะไม่มีความหมาย
วิธีที่ดีในการดูว่าตัวแปรใดที่อธิบายความผันแปรส่วนใหญ่ใน mpg คือ (ปรับ) R-squared มันคือเปอร์เซ็นต์ของการแปรผันใน y ที่อธิบายโดยการแปรผันในตัวแปร x (R-squared ที่ปรับแล้วรวมถึงการลงโทษเล็กน้อยสำหรับตัวแปร x เพิ่มเติมแต่ละตัวในสมการเพื่อถ่วงดุลการ overfitting)
วิธีที่ดีในการดูว่าอะไรสำคัญ - ในแง่ของตัวแปรอื่น ๆ - คือดูการเปลี่ยนแปลงใน R-squared ที่ปรับแล้วเมื่อคุณปล่อยตัวแปรนั้นออกจากการถดถอย การเปลี่ยนแปลงนั้นคือเปอร์เซ็นต์ของความแปรปรวนในตัวแปรตามที่ปัจจัยนั้นอธิบายหลังจากถือตัวแปรอื่น ๆ อย่างคงที่ (อย่างเป็นทางการคุณสามารถทดสอบว่าตัวแปรซ้ายออกมีความสำคัญกับการทดสอบ Fหรือไม่นี่คือความถดถอยแบบขั้นตอนสำหรับการเลือกตัวแปร)
เพื่อแสดงสิ่งนี้ฉันใช้การถดถอยแบบเส้นตรงเดียวสำหรับตัวแปรแต่ละตัวแยกกันโดยทำนายเป็น mpg ตัวแปร wt เพียงอย่างเดียวอธิบาย 75.3% ของการเปลี่ยนแปลงใน mpg และไม่มีตัวแปรเดียวอธิบายเพิ่มเติม อย่างไรก็ตามตัวแปรอื่น ๆ จำนวนมากมีความสัมพันธ์กับน้ำหนักและอธิบายความแตกต่างเดียวกันบางส่วน (ฉันใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งซึ่งอาจนำไปสู่ความแตกต่างเล็กน้อยในข้อผิดพลาดมาตรฐานและการคำนวณอย่างมีนัยสำคัญ แต่จะไม่ส่งผลกระทบต่อค่าสัมประสิทธิ์หรือ R-squared)
+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
เมื่อตัวแปรทั้งหมดอยู่ในนั้นพร้อมกัน R-squared คือ 0.869 และ R-squared ที่ปรับแล้วคือ 0.807 ดังนั้นการเพิ่มตัวแปรเข้าร่วมอีก 9 ตัวเพื่ออธิบายความแปรปรวนอีก 11% (หรือเพิ่มอีก 5% ถ้าเราแก้ไขให้มากเกินไป) (ตัวแปรหลายตัวอธิบายการเปลี่ยนแปลงที่เหมือนกันใน mpg ที่ wt ทำ) และในแบบเต็มนั้นสัมประสิทธิ์เดียวที่มีค่า p-value ต่ำกว่า 20% คือ wt ที่ p = 0.089