ก่อนอื่นเราควรเข้าใจว่าR
ซอฟต์แวร์กำลังทำอะไรเมื่อไม่มีการสกัดกั้นในโมเดล จำได้ว่าการคำนวณปกติของ
เมื่อมีการสกัดกั้นคือ
ความเสมอภาคแรกเกิดขึ้นเพียงเพราะการรวมการสกัดกั้นในแบบจำลองแม้ว่านี่อาจจะเป็นที่นิยมมากขึ้นในการเขียนสองวิธี สองเท่าเทียมกันจริงให้ความหมายทั่วไปมากขึ้น! จุดนี้ยังอยู่ในคำถามที่เกี่ยวข้องนี้R 2 = Σ ผม ( Yฉัน - ˉ Y ) 2R2
R2=∑i(y^i−y¯)2∑i(yi−y¯)2=1−∑i(yi−y^i)2∑i(yi−y¯)2.
แต่จะเกิดอะไรขึ้นถ้าไม่มีการสกัดกั้นในตัวแบบ?
ในกรณีนี้R
( เงียบ ๆ ! ) ใช้แบบฟอร์มที่แก้ไขแล้ว
R20=∑iy^2i∑iy2i=1−∑i(yi−y^i)2∑iy2i.
ช่วยในการจำสิ่งที่พยายามวัด ในกรณีก่อนหน้านี้เป็นการเปรียบเทียบโมเดลปัจจุบันของคุณกับ
โมเดลอ้างอิงที่มีเพียงการสกัดกั้น (เช่นคำที่คงที่) ในกรณีที่สองไม่มีการสกัดกั้นดังนั้นจึงไม่มีเหตุผลที่จะเปรียบเทียบกับแบบจำลองดังกล่าว ดังนั้นแทนที่จะ,คือการคำนวณซึ่งโดยปริยายใช้รูปแบบการอ้างอิงที่สอดคล้องกับเสียงเท่านั้นR 2 0R2R20
ในสิ่งที่ตามมาด้านล่างฉันมุ่งเน้นไปที่การแสดงออกที่สองของทั้งและเนื่องจากการแสดงออกนั้นทำให้บริบททั่วไปเป็นเรื่องปกติR 2 0R2R20
แต่มันแตกต่างกันอย่างไรและเมื่อไหร่?
ลองมาพูดแยกย่อยสั้น ๆ เป็นพีชคณิตเชิงเส้นและดูว่าเราสามารถหาว่าเกิดอะไรขึ้น ก่อนอื่นให้เรียกค่าติดตั้งจากโมเดลด้วยการสกัดกั้นและค่าที่ติดตั้ง จากแบบจำลองโดยไม่ต้องตัด\ y^y~
เราสามารถเขียนนิพจน์สำหรับและเป็น
และ
ตามลำดับR2R20
R2=1−∥y−y^∥22∥y−y¯1∥22,
R20=1−∥y−y~∥22∥y∥22,
ตอนนี้ตั้งแต่จากนั้นถ้าหาก
∥y∥22=∥y−y¯1∥22+ny¯2R20>R2
∥y−y~∥22∥y−y^∥22<1+y¯21n∥y−y¯1∥22.
ด้านซ้ายมือเป็นมากกว่าหนึ่งตั้งแต่รูปแบบที่สอดคล้องกับซ้อนอยู่ในที่ของ\เทอมที่สองทางด้านขวามือคือค่าเฉลี่ยกำลังสองของการตอบสนองหารด้วยความคลาดเคลื่อนกำลังสองเฉลี่ยของโมเดลตัดขวางอย่างเดียว ดังนั้นที่มีขนาดใหญ่มีค่าเฉลี่ยของการตอบสนองเมื่อเทียบกับรูปแบบอื่น ๆ มากขึ้น "หย่อน" ที่เรามีและโอกาสมากขึ้นในมีอำนาจเหนือ 2y~y^R20R2
โปรดสังเกตว่าสิ่งที่ขึ้นกับโมเดลทั้งหมดอยู่ทางด้านซ้ายและสิ่งที่ขึ้นกับแบบไม่ขึ้นอยู่ทางขวา
ตกลงแล้วเราจะทำให้อัตราส่วนทางซ้ายมีขนาดเล็กได้อย่างไร
จำได้ว่า
และที่และมีการฝึกอบรมการฉายที่สอดคล้องกับ subspacesและดังกล่าวว่าs_1y~=P0yy^=P1yP0P1S0S1S0⊂S1
ดังนั้นเพื่อให้อัตราส่วนใกล้เคียงกับหนึ่งเราต้องการ subspaces
และจะคล้ายกันมาก ตอนนี้และแตกต่างกันโดยเฉพาะว่าเป็นเวกเตอร์พื้นฐานหรือไม่ดังนั้นหมายความว่า
น่าจะเป็นพื้นที่ย่อยที่อยู่ใกล้กับมากขึ้นS0S1S0S11S01
ในสาระสำคัญนั่นหมายถึงตัวทำนายของเรามีค่าเฉลี่ยที่ดีกว่าชดเชยตัวเองและค่าเฉลี่ยอันนี้ควรมีอิทธิพลเหนือการเปลี่ยนแปลงของตัวทำนาย
ตัวอย่าง
ที่นี่เราพยายามสร้างตัวอย่างโดยมีจุดตัดอย่างชัดเจนในโมเดลและพฤติกรรมใกล้เคียงกับเคสในคำถาม ด้านล่างเป็นR
รหัสง่ายๆที่จะสาธิต
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
สิ่งนี้จะให้ผลลัพธ์ต่อไปนี้ เราเริ่มต้นด้วยรูปแบบที่มีการสกัดกั้น
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
จากนั้นดูสิ่งที่เกิดขึ้นเมื่อเราแยกการสกัดกั้น
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
ด้านล่างเป็นพล็อตของข้อมูลที่มีรูปแบบการสกัดกั้นด้วยสีแดงและแบบจำลองที่ไม่มีการสกัดกั้นเป็นสีน้ำเงิน