ฉันรู้ว่าหัวข้อนี้เกิดขึ้นหลายครั้งก่อนเช่นที่นี่แต่ฉันยังไม่แน่ใจว่าจะตีความผลลัพธ์การถดถอยของฉันได้ดีที่สุดอย่างไร
ฉันมีชุดข้อมูลที่ง่ายมากประกอบด้วยคอลัมน์ของค่า xและคอลัมน์ค่า yแบ่งออกเป็นสองกลุ่มตามที่ตั้ง (loc) คะแนนมีลักษณะเช่นนี้
เพื่อนร่วมงานได้ตั้งสมมติฐานว่าเราควรใส่การถดถอยเชิงเส้นอย่างง่ายแยกกันในแต่ละกลุ่มซึ่งฉันได้ใช้y ~ x * C(loc)
ไปแล้ว เอาท์พุทที่แสดงด้านล่าง
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.873
Model: OLS Adj. R-squared: 0.866
Method: Least Squares F-statistic: 139.2
Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27
Time: 14:18:50 Log-Likelihood: -27.981
No. Observations: 65 AIC: 63.96
Df Residuals: 61 BIC: 72.66
Df Model: 3
Covariance Type: nonrobust
=================================================================================
coef std err t P>|t| [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept 3.8000 1.784 2.129 0.037 0.232 7.368
C(loc)[T.N] -0.4921 1.948 -0.253 0.801 -4.388 3.404
x -0.6466 0.230 -2.807 0.007 -1.107 -0.186
x:C(loc)[T.N] 0.2719 0.257 1.057 0.295 -0.242 0.786
==============================================================================
Omnibus: 22.788 Durbin-Watson: 2.552
Prob(Omnibus): 0.000 Jarque-Bera (JB): 121.307
Skew: 0.629 Prob(JB): 4.56e-27
Kurtosis: 9.573 Cond. No. 467.
==============================================================================
เมื่อมองไปที่ค่า p สำหรับสัมประสิทธิ์ตัวแปรดัมมี่สำหรับตำแหน่งและเทอมการโต้ตอบไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญซึ่งในกรณีนี้โมเดลการถดถอยของฉันลดลงเหลือเพียงเส้นสีแดงบนพล็อตด้านบน สำหรับฉันนี่แสดงให้เห็นว่าการแยกสายที่เหมาะสมกับทั้งสองกลุ่มอาจเป็นความผิดพลาดและแบบจำลองที่ดีกว่าอาจเป็นเส้นถดถอยเส้นเดียวสำหรับชุดข้อมูลทั้งหมดดังที่แสดงด้านล่าง
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.593
Model: OLS Adj. R-squared: 0.587
Method: Least Squares F-statistic: 91.93
Date: Mon, 13 Jun 2016 Prob (F-statistic): 6.29e-14
Time: 14:24:50 Log-Likelihood: -65.687
No. Observations: 65 AIC: 135.4
Df Residuals: 63 BIC: 139.7
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept 8.9278 0.935 9.550 0.000 7.060 10.796
x -1.2446 0.130 -9.588 0.000 -1.504 -0.985
==============================================================================
Omnibus: 0.112 Durbin-Watson: 1.151
Prob(Omnibus): 0.945 Jarque-Bera (JB): 0.006
Skew: 0.018 Prob(JB): 0.997
Kurtosis: 2.972 Cond. No. 81.9
==============================================================================
สิ่งนี้ดูโอเคสำหรับฉันทางสายตาและค่า p สำหรับสัมประสิทธิ์ทั้งหมดมีความสำคัญ อย่างไรก็ตาม AIC สำหรับรูปแบบที่สองคือมากสูงกว่าสำหรับครั้งแรก
ฉันตระหนักดีว่าการเลือกรูปแบบเป็นอะไรที่มากกว่าเพียงแค่ P-ค่าหรือเพียงแค่เอไอซี แต่ผมไม่แน่ใจว่าสิ่งที่จะทำให้เรื่องนี้ ใครช่วยเสนอคำแนะนำการปฏิบัติเกี่ยวกับการตีความผลลัพธ์นี้และเลือกแบบจำลองที่เหมาะสมได้ไหม
ในสายตาของฉันบรรทัดการถดถอยเดี่ยวดูเหมือนว่าตกลง (แม้ว่าฉันจะรู้ว่าไม่มีพวกเขาเลยที่ดีเป็นพิเศษ) แต่ดูเหมือนว่ามีเหตุผลอย่างน้อยสำหรับการแยกโมเดลที่เหมาะสม (?)
ขอบคุณ!
แก้ไขเพื่อตอบสนองต่อความคิดเห็น
@Cagdas Ozgenc
โมเดลสองบรรทัดได้รับการติดตั้งโดยใช้ Python statsmodels และรหัสต่อไปนี้
reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()
ตามที่ฉันเข้าใจแล้วนี่เป็นเพียงการจดชวเลขสำหรับโมเดลเช่นนี้
ซึ่งเป็นเส้นสีฟ้าบนเนื้อเรื่องด้านบน AIC สำหรับรุ่นนี้มีการรายงานโดยอัตโนมัติในสรุปสถิติรุ่น สำหรับโมเดลบรรทัดเดียวที่ฉันใช้
reg = ols(formula='y ~ x', data=df).fit()
ฉันคิดว่ามันโอเคไหม
@ user2864849
แก้ไข 2
เพียงเพื่อความสมบูรณ์นี่คือแปลงที่เหลือตามที่แนะนำโดย @whuber แบบจำลองสองบรรทัดนั้นดูดีกว่ามากจากมุมมองนี้
รุ่นสองบรรทัด
แบบจำลองบรรทัดเดียว
ขอบคุณทุกคน!