คุณไม่สามารถพูดถึงความสำคัญในกรณีนี้ได้โดยไม่มีข้อผิดพลาดมาตรฐาน มันปรับขนาดด้วยตัวแปรและค่าสัมประสิทธิ์ ยิ่งไปกว่านั้นสัมประสิทธิ์แต่ละอย่างจะมีเงื่อนไขตามตัวแปรอื่น ๆ ในตัวแบบและความจริง collinearity ดูเหมือนจะขยายความสำคัญของ hp และ disp
การลดขนาดตัวแปรไม่ควรเปลี่ยนความสำคัญของผลลัพธ์เลย ที่จริงเมื่อฉันรันการถดถอยใหม่ (ด้วยตัวแปรตามที่เป็นอยู่และทำให้เป็นมาตรฐานโดยการลบค่าเฉลี่ยและหารด้วยข้อผิดพลาดมาตรฐาน) การประมาณค่าสัมประสิทธิ์แต่ละตัว (ยกเว้นค่าคงที่) มีค่า t-stat เหมือนกันทุกประการ การทดสอบ F ของนัยสำคัญโดยรวมยังคงเหมือนเดิม
นั่นคือแม้ว่าเมื่อตัวแปรทั้งหมดได้รับการปรับให้มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของ 1 จะไม่มีข้อผิดพลาดมาตรฐานขนาดเดียวสำหรับแต่ละสัมประสิทธิ์การถดถอยดังนั้นเพียงแค่ดูขนาดของสัมประสิทธิ์แต่ละตัวใน การถดถอยมาตรฐานยังคงทำให้เข้าใจผิดเกี่ยวกับความสำคัญ
ดังที่ David Masip อธิบายว่าขนาดของสัมประสิทธิ์มีความสัมพันธ์แบบผกผันกับขนาดของจุดข้อมูล แต่แม้ว่าค่าสัมประสิทธิ์ในการแจกจ่ายและ hp มีขนาดใหญ่พวกเขาก็ยังไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญ
ในความเป็นจริง hp และ disp มีความสัมพันธ์กันอย่างมาก r = .79 ดังนั้นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์เหล่านั้นจึงสูงเป็นพิเศษเมื่อเทียบกับขนาดสัมประสิทธิ์เนื่องจากมีค่า collinear ในการถดถอยนี้พวกเขากำลังทำการถ่วงดุลแปลก ๆ ซึ่งเป็นเหตุผลว่าทำไมคนถึงมีสัมประสิทธิ์เป็นบวกและอีกคนมีสัมประสิทธิ์เป็นลบ ดูเหมือนว่าเป็นเรื่องของการบรรจุมากเกินไปและดูเหมือนจะไม่มีความหมาย
วิธีที่ดีในการดูว่าตัวแปรใดที่อธิบายความผันแปรส่วนใหญ่ใน mpg คือ (ปรับ) R-squared มันคือเปอร์เซ็นต์ของการแปรผันใน y ที่อธิบายโดยการแปรผันในตัวแปร x (R-squared ที่ปรับแล้วรวมถึงการลงโทษเล็กน้อยสำหรับตัวแปร x เพิ่มเติมแต่ละตัวในสมการเพื่อถ่วงดุลการ overfitting)
วิธีที่ดีในการดูว่าอะไรสำคัญ - ในแง่ของตัวแปรอื่น ๆ - คือดูการเปลี่ยนแปลงใน R-squared ที่ปรับแล้วเมื่อคุณปล่อยตัวแปรนั้นออกจากการถดถอย การเปลี่ยนแปลงนั้นคือเปอร์เซ็นต์ของความแปรปรวนในตัวแปรตามที่ปัจจัยนั้นอธิบายหลังจากถือตัวแปรอื่น ๆ อย่างคงที่ (อย่างเป็นทางการคุณสามารถทดสอบว่าตัวแปรซ้ายออกมีความสำคัญกับการทดสอบ Fหรือไม่นี่คือความถดถอยแบบขั้นตอนสำหรับการเลือกตัวแปร)
เพื่อแสดงสิ่งนี้ฉันใช้การถดถอยแบบเส้นตรงเดียวสำหรับตัวแปรแต่ละตัวแยกกันโดยทำนายเป็น mpg ตัวแปร wt เพียงอย่างเดียวอธิบาย 75.3% ของการเปลี่ยนแปลงใน mpg และไม่มีตัวแปรเดียวอธิบายเพิ่มเติม อย่างไรก็ตามตัวแปรอื่น ๆ จำนวนมากมีความสัมพันธ์กับน้ำหนักและอธิบายความแตกต่างเดียวกันบางส่วน (ฉันใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งซึ่งอาจนำไปสู่ความแตกต่างเล็กน้อยในข้อผิดพลาดมาตรฐานและการคำนวณอย่างมีนัยสำคัญ แต่จะไม่ส่งผลกระทบต่อค่าสัมประสิทธิ์หรือ R-squared)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
เมื่อตัวแปรทั้งหมดอยู่ในนั้นพร้อมกัน R-squared คือ 0.869 และ R-squared ที่ปรับแล้วคือ 0.807 ดังนั้นการเพิ่มตัวแปรเข้าร่วมอีก 9 ตัวเพื่ออธิบายความแปรปรวนอีก 11% (หรือเพิ่มอีก 5% ถ้าเราแก้ไขให้มากเกินไป) (ตัวแปรหลายตัวอธิบายการเปลี่ยนแปลงที่เหมือนกันใน mpg ที่ wt ทำ) และในแบบเต็มนั้นสัมประสิทธิ์เดียวที่มีค่า p-value ต่ำกว่า 20% คือ wt ที่ p = 0.089