สูตร y ~ x + 0 ใน R คำนวณอะไรจริง ๆ

ความแตกต่างทางสถิติระหว่างการทำการถดถอยเชิงเส้นใน R กับformulaชุดเป็นy ~ x + 0แทนที่จะเป็นy ~ xอะไร? ฉันจะตีความผลลัพธ์ที่แตกต่างกันสองแบบได้อย่างไร

multiple-regression generalized-linear-model intercept

— JimBoy
แหล่งที่มา

คำตอบ:

การเพิ่ม+0(หรือ-1) ลงในสูตรแบบจำลอง (เช่นในlm()) ใน R จะหยุดการสกัดกั้น โดยทั่วไปถือว่าเป็นสิ่งไม่ดีที่ต้องทำ ดู:

ความชันโดยประมาณจะถูกคำนวณต่างกันไปขึ้นอยู่กับว่าการประมาณค่าตัดแกนนั้นมีค่าเท่าไรกล่าวคือ:

\begin{aligned} (with intercept) & {\hat{β}}_{1} & = \frac{\sum x_{i} y_{i} - \frac{(\sum x_{i}) (\sum y_{i})}{N}}{\sum x_{i}^{2} - \frac{(\sum x_{i})^{2}}{N}} \\ (without intercept) & {\hat{β}}_{1} & = \frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}} \end{aligned}

$\begin{align} \hat\beta_1 &= \frac{\sum x_iy_i - \frac{\big(\sum x_i\big)\big(\sum y_i\big)}{N}}{\sum x_i^2 - \frac{\big(\sum x_i\big)^2}{N}} \tag{with intercept} \\[15pt] \hat\beta_1 &= \frac{\sum x_iy_i}{\sum x_i^2} \tag{without intercept} \end{align}$

เนื่องจากปริมาณที่จะลบ ("subtrahend") ทั้งในตัวเศษและตัวหารนั้นไม่จำเป็นต้องเป็นการประมาณค่าของความชันจะเอนเอียงเมื่อถูกสกัดกั้น $0$

ค่าสำหรับนั้นจะถูกคำนวณด้วยเช่นกัน ดู: $R^2$

นี่คือสูตรพื้นฐาน:

\begin{aligned} (with intercept) & R^{2} & = 1 - \frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{\sum (y_{i} - \bar{y})^{2}} \\ (without intercept) & R^{2} & = 1 - \frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{\sum y_{i}^{2}} \end{aligned}

$\begin{align} R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum (y_i - \bar y)^2} \tag{with intercept} \\[15pt] R^2 &= 1 - \frac{\sum (y_i - \hat y_i)^2}{\sum y_i^2} \tag{without intercept} \end{align}$

— gung - Reinstate Monica
แหล่งที่มา

ขอบคุณ gung! ถ้าฉันระงับการสกัดกั้น R-squared หลายอันของฉันก็ดีขึ้นทันที คุณช่วยฉันออกจากที่นี่ได้ไหม

— JimBoy

ไม่มีวิธีการคำนวณ r กำลังสองที่ตกลงกันโดยไม่มีการสกัดกั้น r กำลังสองไม่มีการตีความตามปกติ การถดถอยโดยปราศจากการสกัดกั้นมักเป็นความคิดที่เลวร้ายมาก

— Repmat

@Repmat: ดูเพิ่มเติมstats.stackexchange.com/questions/171240/…

@JimBoy: ดูstats.stackexchange.com/questions/171240/…

มันขึ้นอยู่กับบริบท (แน่นอน) ในlm(...)คำสั่งใน R มันจะหยุดการสกัดกั้น นั่นคือคุณจะถดถอยถึงที่มา

โปรดทราบว่าตำราเรียนส่วนใหญ่ในเรื่องของการถดถอยจะบอกคุณว่าการบังคับให้มีการสกัดกั้น (เป็นค่าใด ๆ ) เป็นความคิดที่ไม่ดี

การตีความของ x จะไม่เปลี่ยนแปลง แต่ค่า (เปรียบเทียบกับและไม่มีการสกัดกั้น) จะเปลี่ยนแปลงบางครั้งมีนัยสำคัญมาก

— Repmat
แหล่งที่มา

ขอบคุณ Repmat! ฉันได้รับการประมาณการที่แตกต่างกันมากถ้าฉันระงับการสกัดกั้นเมื่อเทียบกับเมื่อฉันไม่ทำ นอกจากนี้การทดสอบ t ทั้งหมดมีความสำคัญสูง คุณรู้ไหมว่าทำไมถึงเป็นเช่นนี้?

— JimBoy

การสกัดกั้นจะดูดซับค่าที่ไม่ใช่ 0 หมายถึงตัวแปรที่ไม่มีอยู่ในตัวแบบ เมื่อมีการสกัดกั้นหายไปความแปรปรวนต้องไปที่ใดที่หนึ่ง นี่คือเหตุผลที่หนังสือส่วนใหญ่ตามกฎทั่วไประบุว่าการถดถอยที่ไม่มีการสกัดกั้นนั้นผิดเสมอไป นั่นคือ OLS มักจะลำเอียงเสมอและสอดคล้องกันในกรณีนี้ (มีข้อยกเว้นเล็กน้อย)

— Repmat