ไม่ใช่เลย. ขนาดของสัมประสิทธิ์ขึ้นอยู่กับสเกลที่เลือกสำหรับตัวแปรซึ่งเป็นการตัดสินใจสร้างแบบจำลองโดยพลการ
หากต้องการดูสิ่งนี้ให้พิจารณาแบบจำลองการถดถอยเชิงเส้นเพื่อทำนายความกว้างของกลีบดอกไม้ของม่านตา (เป็นเซนติเมตร) เนื่องจากความยาวของกลีบดอกไม้ (เป็นเซนติเมตร):
summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
# Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
โมเดลของเราได้รับค่า R ^ 2 ที่ปรับค่าแล้ว 0.9266 และกำหนดค่าสัมประสิทธิ์ 0.415755 ให้กับตัวแปร Petal.Length
อย่างไรก็ตามทางเลือกในการกำหนด Petal ความยาวเป็นเซนติเมตรค่อนข้างอิสระและเราสามารถกำหนดตัวแปรเป็นเมตรได้:
iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.36308 0.03976 -9.131 4.7e-16 ***
# Petal.Length.Meters 41.57554 0.95824 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
แน่นอนว่านี่ไม่ได้ส่งผลกระทบต่อโมเดลที่ได้รับการติดตั้ง แต่อย่างใด - เราเพียงกำหนดค่าสัมประสิทธิ์ที่ใหญ่กว่าให้กับ Petal.Length.Meters (41.57554) มากกว่า Petal.Length (0.415755) คุณสมบัติอื่น ๆ ทั้งหมดของแบบจำลอง (ปรับ R ^ 2, สถิติ t, ค่า p, ฯลฯ ) เหมือนกัน
โดยทั่วไปเมื่อทำการปรับโมเดลเชิงเส้นที่ทำให้เป็นมาตรฐานแบบปกติหนึ่งจะทำให้ตัวแปรเป็นมาตรฐานแรก (ตัวอย่างเช่นมีค่าเฉลี่ย 0 และความแปรปรวนของหน่วย) เพื่อหลีกเลี่ยงการให้ความสำคัญกับตัวแปรอื่น ๆ
สมมติว่าข้อมูลปกติ
แม้ว่าคุณจะทำให้ตัวแปรทั้งหมดเป็นปกติ แต่ตัวแปรที่มีค่าสัมประสิทธิ์สูงกว่านั้นอาจยังไม่เป็นประโยชน์ในการทำนายเนื่องจากตัวแปรอิสระนั้นไม่ค่อยได้รับการตั้งค่า (มีความแปรปรวนต่ำ) เป็นตัวอย่างให้พิจารณาชุดข้อมูลที่มีตัวแปร Z และตัวแปรอิสระ X และ Y ที่รับค่าไบนารี
set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)
จากการก่อสร้างสัมประสิทธิ์สำหรับ Y นั้นมีขนาดใหญ่เป็นสองเท่าของสัมประสิทธิ์สำหรับ X เมื่อทั้งสองถูกใช้เพื่อทำนาย Z ผ่านการถดถอยเชิงเส้น:
summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.4991 -0.6749 -0.0056 0.6723 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.094793 0.031598 -3.00 0.0027 **
# X 0.999435 0.006352 157.35 <2e-16 ***
# Y 2.099410 0.031919 65.77 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared: 0.2394, Adjusted R-squared: 0.2394
# F-statistic: 1.574e+04 on 2 and 99997 DF, p-value: < 2.2e-16
ยัง X อธิบายถึงความแปรปรวนใน Z มากกว่า Y (รูปแบบการถดถอยเชิงเส้นทำนาย Z กับ X มีค่า R ^ 2 0.2065 ในขณะที่แบบจำลองการถดถอยเชิงเส้นทำนาย Z กับ Y มีค่า R ^ 2 0.0511):
summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.2587 -0.6759 0.0038 0.6842 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.962629 0.004564 430.0 <2e-16 ***
# X 1.041424 0.006455 161.3 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared: 0.2065, Adjusted R-squared: 0.2065
# F-statistic: 2.603e+04 on 1 and 99998 DF, p-value: < 2.2e-16
เมื่อเทียบกับ:
summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.0038 -0.7638 -0.0007 0.7610 5.2288
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.09479 0.03529 -2.686 0.00724 **
# Y 2.60418 0.03547 73.416 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared: 0.05114, Adjusted R-squared: 0.05113
# F-statistic: 5390 on 1 and 99998 DF, p-value: < 2.2e-16
กรณีของความหลากหลายทางเชื้อชาติ
กรณีที่สามที่ค่าสัมประสิทธิ์ขนาดใหญ่อาจถูกหลอกลวงจะเป็นในกรณีที่มีความหลากหลายหลายระดับนัยสำคัญระหว่างตัวแปร ยกตัวอย่างเช่นพิจารณาชุดข้อมูลที่ X และ Y มีความสัมพันธ์สูง แต่ W ไม่ได้มีความสัมพันธ์สูงกับอีกสอง; เราพยายามทำนาย Z:
set.seed(144)
dat <- data.frame(W=rnorm(100000),
X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
# W X Y Z
# W 1.000000e+00 5.191809e-05 5.200434e-05 0.8161636
# X 5.191809e-05 1.000000e+00 9.999995e-01 -0.4079183
# Y 5.200434e-05 9.999995e-01 1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01 1.0000000
ตัวแปรเหล่านี้มีค่าเฉลี่ย (0) และความแปรปรวน (~ 1) เท่ากันและการถดถอยเชิงเส้นกำหนดค่าสัมประสิทธิ์ที่สูงขึ้นมาก (ในค่าสัมบูรณ์) ถึง X (ประมาณ 15) และ Y (ประมาณ -16) กว่า W (ประมาณ -16) ประมาณ 2):
summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.1886 -0.6760 0.0026 0.6679 4.2232
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.831e-04 3.170e-03 0.058 0.954
# W 2.001e+00 3.172e-03 630.811 < 2e-16 ***
# X 1.509e+01 3.177e+00 4.748 2.05e-06 ***
# Y -1.609e+01 3.177e+00 -5.063 4.13e-07 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared: 0.8326, Adjusted R-squared: 0.8326
# F-statistic: 1.658e+05 on 3 and 99996 DF, p-value: < 2.2e-16
อย่างไรก็ตามในบรรดาตัวแปรสามตัวในแบบจำลอง W นั้นสำคัญที่สุด: ถ้าคุณลบ W ออกจากแบบจำลองเต็มรูปแบบค่า R ^ 2 จะลดลงจาก 0.833 เป็น 0.166 ในขณะที่ถ้าคุณวาง X หรือ Y ค่า R ^ 2 แทบจะไม่เปลี่ยนแปลงเลย