การถดถอยเชิงเส้นและการปรับขนาดของข้อมูล

10

พล็อตต่อไปนี้แสดงค่าสัมประสิทธิ์ที่ได้จากการถดถอยเชิงเส้น (พร้อมกับmpgตัวแปรเป้าหมายและอื่น ๆ ทั้งหมดเป็นตัวทำนาย)

สำหรับชุดข้อมูล mtcars ( ที่นี่และที่นี่ ) ทั้งที่มีและไม่มีการปรับขนาดข้อมูล:

ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ตัวแปรhpและdispมีความสำคัญก็ต่อเมื่อมีการปรับสัดส่วนข้อมูล มีamและqsecความสำคัญเท่าเทียมกันหรือเป็นamสิ่งที่สำคัญกว่าqsec? ซึ่งตัวแปรหนึ่งควรจะพูดว่าเป็นปัจจัยสำคัญของการmpg?

ขอบคุณสำหรับความเข้าใจของคุณ

feature-selection linear-regression feature-scaling

— rnso
แหล่งที่มา

หากคุณไม่รังเกียจคุณสามารถเรียกใช้รุ่นที่แตกต่างกันสองสามรุ่นและตรวจสอบคุณสมบัติที่สำคัญจริง ๆ ได้หรือไม่ การปรับขนาดของข้อมูลจะทำเมื่อเรามีสเกลที่แตกต่างกันมากสำหรับคอลัมน์ที่แตกต่างกันและพวกมันต่างกันไม่ดีจากพล็อตของคุณ (พล็อตที่ดี) มันค่อนข้างชัดเจนว่าการปรับขนาดช่วยให้โมเดล แบบจำลองไม่มีตัวเลือก แต่ให้น้ำหนักมากกว่ากับตัวแปรที่มีสเกลขนาดใหญ่โดยมีเงื่อนไขว่าสิ่งที่คุณคาดการณ์นั้นมีจำนวนสูงเช่นกัน ..

— Aditya

ขอบคุณสำหรับความคิดเห็นของคุณเกี่ยวกับพล็อต ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "เรียกใช้แบบจำลองที่แตกต่างกันไม่กี่" คุณสามารถค้นหาว่าคุณลักษณะใดมีความสำคัญอย่างแท้จริงโดยใช้เทคนิคอื่น ๆ เช่นโครงข่ายประสาทเพื่อให้สามารถเปรียบเทียบกับการค้นพบของการถดถอยเชิงเส้น

— rnso

ขออภัยที่ไม่ชัดเจนสิ่งที่ฉันหมายถึงคือลองใช้อัลกอริธึม ml ที่แตกต่างกันเช่นการใช้ต้นไม้เป็นต้นและเปรียบเทียบคุณลักษณะทั้งหมดของพวกเขาสิ่งสำคัญ ..

— Aditya

4

ความจริงที่ว่าค่าสัมประสิทธิ์ของ hp และ disp ต่ำเมื่อข้อมูลไม่ได้ปรับสัดส่วนและสูงเมื่อข้อมูลถูกปรับอัตราส่วนหมายความว่าตัวแปรเหล่านี้ช่วยอธิบายตัวแปรตาม แต่ขนาดของมันมีขนาดใหญ่ดังนั้นค่าสัมประสิทธิ์ในกรณีที่ไม่มีขนาดจะต่ำ

ในแง่ของ "ความสำคัญ" ฉันจะบอกว่าค่าสัมบูรณ์ของสัมประสิทธิ์ในกรณีที่ปรับขนาดเป็นตัวชี้วัดที่ดีของความสำคัญมากกว่าในกรณีที่ไม่มีการลดขนาดเนื่องจากมีขนาดของตัวแปรที่เกี่ยวข้องเช่นกันและควร ไม่.

แน่นอนตัวแปรที่สำคัญกว่าคือน้ำหนัก

— David Masip
แหล่งที่มา

4

คุณไม่สามารถพูดถึงความสำคัญในกรณีนี้ได้โดยไม่มีข้อผิดพลาดมาตรฐาน มันปรับขนาดด้วยตัวแปรและค่าสัมประสิทธิ์ ยิ่งไปกว่านั้นสัมประสิทธิ์แต่ละอย่างจะมีเงื่อนไขตามตัวแปรอื่น ๆ ในตัวแบบและความจริง collinearity ดูเหมือนจะขยายความสำคัญของ hp และ disp

การลดขนาดตัวแปรไม่ควรเปลี่ยนความสำคัญของผลลัพธ์เลย ที่จริงเมื่อฉันรันการถดถอยใหม่ (ด้วยตัวแปรตามที่เป็นอยู่และทำให้เป็นมาตรฐานโดยการลบค่าเฉลี่ยและหารด้วยข้อผิดพลาดมาตรฐาน) การประมาณค่าสัมประสิทธิ์แต่ละตัว (ยกเว้นค่าคงที่) มีค่า t-stat เหมือนกันทุกประการ การทดสอบ F ของนัยสำคัญโดยรวมยังคงเหมือนเดิม

นั่นคือแม้ว่าเมื่อตัวแปรทั้งหมดได้รับการปรับให้มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของ 1 จะไม่มีข้อผิดพลาดมาตรฐานขนาดเดียวสำหรับแต่ละสัมประสิทธิ์การถดถอยดังนั้นเพียงแค่ดูขนาดของสัมประสิทธิ์แต่ละตัวใน การถดถอยมาตรฐานยังคงทำให้เข้าใจผิดเกี่ยวกับความสำคัญ

ดังที่ David Masip อธิบายว่าขนาดของสัมประสิทธิ์มีความสัมพันธ์แบบผกผันกับขนาดของจุดข้อมูล แต่แม้ว่าค่าสัมประสิทธิ์ในการแจกจ่ายและ hp มีขนาดใหญ่พวกเขาก็ยังไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญ

ในความเป็นจริง hp และ disp มีความสัมพันธ์กันอย่างมาก r = .79 ดังนั้นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์เหล่านั้นจึงสูงเป็นพิเศษเมื่อเทียบกับขนาดสัมประสิทธิ์เนื่องจากมีค่า collinear ในการถดถอยนี้พวกเขากำลังทำการถ่วงดุลแปลก ๆ ซึ่งเป็นเหตุผลว่าทำไมคนถึงมีสัมประสิทธิ์เป็นบวกและอีกคนมีสัมประสิทธิ์เป็นลบ ดูเหมือนว่าเป็นเรื่องของการบรรจุมากเกินไปและดูเหมือนจะไม่มีความหมาย

วิธีที่ดีในการดูว่าตัวแปรใดที่อธิบายความผันแปรส่วนใหญ่ใน mpg คือ (ปรับ) R-squared มันคือเปอร์เซ็นต์ของการแปรผันใน y ที่อธิบายโดยการแปรผันในตัวแปร x (R-squared ที่ปรับแล้วรวมถึงการลงโทษเล็กน้อยสำหรับตัวแปร x เพิ่มเติมแต่ละตัวในสมการเพื่อถ่วงดุลการ overfitting)

วิธีที่ดีในการดูว่าอะไรสำคัญ - ในแง่ของตัวแปรอื่น ๆ - คือดูการเปลี่ยนแปลงใน R-squared ที่ปรับแล้วเมื่อคุณปล่อยตัวแปรนั้นออกจากการถดถอย การเปลี่ยนแปลงนั้นคือเปอร์เซ็นต์ของความแปรปรวนในตัวแปรตามที่ปัจจัยนั้นอธิบายหลังจากถือตัวแปรอื่น ๆ อย่างคงที่ (อย่างเป็นทางการคุณสามารถทดสอบว่าตัวแปรซ้ายออกมีความสำคัญกับการทดสอบ Fหรือไม่นี่คือความถดถอยแบบขั้นตอนสำหรับการเลือกตัวแปร)

เพื่อแสดงสิ่งนี้ฉันใช้การถดถอยแบบเส้นตรงเดียวสำหรับตัวแปรแต่ละตัวแยกกันโดยทำนายเป็น mpg ตัวแปร wt เพียงอย่างเดียวอธิบาย 75.3% ของการเปลี่ยนแปลงใน mpg และไม่มีตัวแปรเดียวอธิบายเพิ่มเติม อย่างไรก็ตามตัวแปรอื่น ๆ จำนวนมากมีความสัมพันธ์กับน้ำหนักและอธิบายความแตกต่างเดียวกันบางส่วน (ฉันใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งซึ่งอาจนำไปสู่ความแตกต่างเล็กน้อยในข้อผิดพลาดมาตรฐานและการคำนวณอย่างมีนัยสำคัญ แต่จะไม่ส่งผลกระทบต่อค่าสัมประสิทธิ์หรือ R-squared)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

เมื่อตัวแปรทั้งหมดอยู่ในนั้นพร้อมกัน R-squared คือ 0.869 และ R-squared ที่ปรับแล้วคือ 0.807 ดังนั้นการเพิ่มตัวแปรเข้าร่วมอีก 9 ตัวเพื่ออธิบายความแปรปรวนอีก 11% (หรือเพิ่มอีก 5% ถ้าเราแก้ไขให้มากเกินไป) (ตัวแปรหลายตัวอธิบายการเปลี่ยนแปลงที่เหมือนกันใน mpg ที่ wt ทำ) และในแบบเต็มนั้นสัมประสิทธิ์เดียวที่มีค่า p-value ต่ำกว่า 20% คือ wt ที่ p = 0.089

— cactus_pardner
แหล่งที่มา