การถดถอยเชิงเส้นอย่างง่ายค่า p และ AIC


14

ฉันรู้ว่าหัวข้อนี้เกิดขึ้นหลายครั้งก่อนเช่นที่นี่แต่ฉันยังไม่แน่ใจว่าจะตีความผลลัพธ์การถดถอยของฉันได้ดีที่สุดอย่างไร

ฉันมีชุดข้อมูลที่ง่ายมากประกอบด้วยคอลัมน์ของค่า xและคอลัมน์ค่า yแบ่งออกเป็นสองกลุ่มตามที่ตั้ง (loc) คะแนนมีลักษณะเช่นนี้

ป้อนคำอธิบายรูปภาพที่นี่

เพื่อนร่วมงานได้ตั้งสมมติฐานว่าเราควรใส่การถดถอยเชิงเส้นอย่างง่ายแยกกันในแต่ละกลุ่มซึ่งฉันได้ใช้y ~ x * C(loc)ไปแล้ว เอาท์พุทที่แสดงด้านล่าง

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

ป้อนคำอธิบายรูปภาพที่นี่

เมื่อมองไปที่ค่า p สำหรับสัมประสิทธิ์ตัวแปรดัมมี่สำหรับตำแหน่งและเทอมการโต้ตอบไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญซึ่งในกรณีนี้โมเดลการถดถอยของฉันลดลงเหลือเพียงเส้นสีแดงบนพล็อตด้านบน สำหรับฉันนี่แสดงให้เห็นว่าการแยกสายที่เหมาะสมกับทั้งสองกลุ่มอาจเป็นความผิดพลาดและแบบจำลองที่ดีกว่าอาจเป็นเส้นถดถอยเส้นเดียวสำหรับชุดข้อมูลทั้งหมดดังที่แสดงด้านล่าง

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้ดูโอเคสำหรับฉันทางสายตาและค่า p สำหรับสัมประสิทธิ์ทั้งหมดมีความสำคัญ อย่างไรก็ตาม AIC สำหรับรูปแบบที่สองคือมากสูงกว่าสำหรับครั้งแรก

ฉันตระหนักดีว่าการเลือกรูปแบบเป็นอะไรที่มากกว่าเพียงแค่ P-ค่าหรือเพียงแค่เอไอซี แต่ผมไม่แน่ใจว่าสิ่งที่จะทำให้เรื่องนี้ ใครช่วยเสนอคำแนะนำการปฏิบัติเกี่ยวกับการตีความผลลัพธ์นี้และเลือกแบบจำลองที่เหมาะสมได้ไหม

ในสายตาของฉันบรรทัดการถดถอยเดี่ยวดูเหมือนว่าตกลง (แม้ว่าฉันจะรู้ว่าไม่มีพวกเขาเลยที่ดีเป็นพิเศษ) แต่ดูเหมือนว่ามีเหตุผลอย่างน้อยสำหรับการแยกโมเดลที่เหมาะสม (?)

ขอบคุณ!

แก้ไขเพื่อตอบสนองต่อความคิดเห็น

@Cagdas Ozgenc

โมเดลสองบรรทัดได้รับการติดตั้งโดยใช้ Python statsmodels และรหัสต่อไปนี้

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

ตามที่ฉันเข้าใจแล้วนี่เป็นเพียงการจดชวเลขสำหรับโมเดลเช่นนี้

y=β0+β1x+β2l+β3xl

lloc=Dl=0

y=β0+β1x

loc=Nl=1

y=(β0+β2)+(β1+β3)x

ซึ่งเป็นเส้นสีฟ้าบนเนื้อเรื่องด้านบน AIC สำหรับรุ่นนี้มีการรายงานโดยอัตโนมัติในสรุปสถิติรุ่น สำหรับโมเดลบรรทัดเดียวที่ฉันใช้

reg = ols(formula='y ~ x', data=df).fit()

ฉันคิดว่ามันโอเคไหม

@ user2864849

loc=D

แก้ไข 2

เพียงเพื่อความสมบูรณ์นี่คือแปลงที่เหลือตามที่แนะนำโดย @whuber แบบจำลองสองบรรทัดนั้นดูดีกว่ามากจากมุมมองนี้

รุ่นสองบรรทัด

ป้อนคำอธิบายรูปภาพที่นี่

แบบจำลองบรรทัดเดียว

ป้อนคำอธิบายรูปภาพที่นี่

ขอบคุณทุกคน!


3
สนใจที่จะอธิบายว่าทำไมบรรทัดการถดถอยเดี่ยวดูดีกว่าสำหรับคุณหรือไม่ สำหรับฉันฉันเห็นสองกลุ่มที่แยกได้เป็นเส้นตรงและหมวดหมู่ N มีความแปรปรวนน้อยมาก คุณคิดว่าคนแรกแย่กว่าเพราะวงดนตรีที่เชื่อมั่นซ้อนกันหรือไม่?
Marsenau

6
x

3
R2

3
@StudentT ทั้งสองรุ่นใช้จุดข้อมูลทั้งหมด โมเดลอย่างง่ายใช้ตัวแปรอิสระน้อยลง จุดข้อมูลหนึ่งคือ tuple ทั้งหมด
Cagdas Ozgenc

5
หากคุณต้องการที่จะใช้วิธีการทดสอบสมมติฐานที่ใช้ในการเลือกรูปแบบที่คุณจะต้องไม่คิดว่าเพราะสองทำนายเป็นแต่ละไม่มีนัยสำคัญการลบทั้งจากแบบจำลองจะมีการนำเข้าน้อย การทดสอบ F สำหรับความสำคัญร่วมกันจะเป็นสิ่งที่เหมาะสม
Scortchi - Reinstate Monica

คำตอบ:


1

คุณลองใช้ตัวทำนายทั้งสองโดยไม่มีการโต้ตอบหรือไม่? ดังนั้นมันจะเป็น:

y ~ x + Loc

AIC น่าจะดีกว่าในรุ่นแรกเพราะทำเลมีความสำคัญ แต่ปฏิกิริยาไม่สำคัญซึ่งเป็นสาเหตุที่ค่า P ไม่สำคัญ จากนั้นคุณจะตีความว่ามันเป็นผลกระทบของ x หลังจากการควบคุมสำหรับ Loc


1

ฉันคิดว่าคุณทำได้ดีในการท้าทายแนวคิดที่ว่าค่า p และค่า AIC เพียงอย่างเดียวสามารถกำหนดความมีชีวิตของโมเดลได้ ฉันก็ดีใจที่คุณเลือกแชร์ที่นี่

ในขณะที่คุณแสดงให้เห็นว่ามีการแลกเปลี่ยนที่แตกต่างกันเมื่อคุณพิจารณาเงื่อนไขต่างๆและการโต้ตอบของพวกเขา ดังนั้นคำถามหนึ่งที่มีอยู่ในใจคือจุดประสงค์ของโมเดล หากคุณกำลังรับหน้าที่ในการตรวจสอบผลกระทบของสถานที่ตั้งบนyแล้วคุณควรจะให้สถานที่ในรูปแบบคำนึงถึงวิธีการที่อ่อนแอ p-value คือ ผลที่ได้คือข้อมูลที่สำคัญในกรณีนั้น

เมื่อเห็นอย่างรวดเร็วครั้งแรกดูเหมือนว่าDสถานที่นั้นมีขนาดใหญ่yขึ้น แต่มีช่วงแคบ ๆxที่คุณมีทั้งค่าDและNที่ตั้ง การสร้างค่าสัมประสิทธิ์โมเดลของคุณใหม่สำหรับช่วงเวลาเล็ก ๆ นี้อาจทำให้เกิดข้อผิดพลาดมาตรฐานที่ใหญ่กว่ามาก

แต่บางทีคุณอาจไม่สนใจเกี่ยวกับสถานที่yเกินความสามารถของตนในการทำนาย มันเป็นข้อมูลที่คุณเพิ่งเกิดขึ้นและมีการเขียนโค้ดสีลงบนพล็อตของคุณเผยให้เห็นรูปแบบที่น่าสนใจ ในกรณีนี้คุณอาจสนใจในการคาดการณ์ของโมเดลมากกว่าการตีความค่าสัมประสิทธิ์ที่คุณชื่นชอบ ฉันสงสัยว่าค่า AIC มีประโยชน์มากกว่าในกรณีนี้ ฉันยังไม่คุ้นเคยกับ AIC แต่ฉันคิดว่าอาจเป็นการลงโทษคำผสมเนื่องจากมีเพียงช่วงเล็ก ๆ ที่คุณสามารถเปลี่ยนตำแหน่งเพื่อแก้ไขxได้ มีตำแหน่งน้อยมากที่อธิบายxไม่ได้อธิบาย


0

คุณต้องรายงานทั้งสองกลุ่มแยกกัน (หรืออาจพิจารณาการสร้างแบบจำลองหลายระดับ) ในการรวมกลุ่มต่างๆเข้าด้วยกันเป็นการฝ่าฝืนสมมติฐานพื้นฐานข้อหนึ่งของการถดถอย (และเทคนิคเชิงสถิติเชิงอนุมานอื่น ๆ ) ความเป็นอิสระของการสังเกต หรือจะกล่าวอีกอย่างหนึ่งคือการจัดกลุ่มตัวแปร (ตำแหน่ง) เป็นตัวแปรที่ซ่อนอยู่เว้นแต่ว่าจะนำมาพิจารณาในการวิเคราะห์ของคุณ

ในกรณีที่รุนแรงการเพิกเฉยตัวแปรการจัดกลุ่มสามารถนำไปสู่ความขัดแย้งของซิมป์สัน ในความขัดแย้งนี้คุณสามารถมีสองกลุ่มซึ่งทั้งสองมีความสัมพันธ์เชิงบวก แต่ถ้าคุณรวมพวกเขาคุณมีความสัมพันธ์เชิงลบ (เท็จไม่ถูกต้อง) (หรือในทางกลับกันแน่นอน.) ดูhttp://www.theregister.co.uk/2014/05/28/theorums_3_simpson/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.