ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค
สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้:
สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - x n ) x = 1 , 2 , 3 , 4
ตัวอย่างนี้เป็นวิธีที่ฉันกำลังเชื่อมต่อขนาดของค่าสัมประสิทธิ์ของแบบจำลองกับ "ความซับซ้อน" ของแบบจำลองที่สร้างขึ้น แต่ฉันกังวลว่ากรณีนี้คือการทำให้ปราศจากเชื้อเพื่อบ่งบอกพฤติกรรมที่แท้จริงของโลก ฉันจงใจสร้างแบบจำลองที่มีการติดตั้งมากเกินไป (พหุนาม OLS ระดับ 10 พอดีกับข้อมูลที่สร้างจากแบบจำลองการสุ่มกำลังสอง) และรู้สึกประหลาดใจที่เห็นสัมประสิทธิ์ขนาดเล็กส่วนใหญ่ในแบบจำลองของฉัน:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
บางทีสิ่งที่นำออกไปจากตัวอย่างนี้คือสองในสามของสัมประสิทธิ์น้อยกว่า 1 และสัมพันธ์กับสัมประสิทธิ์อื่น ๆมีสัมประสิทธิ์สามตัวที่มีขนาดใหญ่ผิดปกติ (และตัวแปรที่เกี่ยวข้องกับสัมประสิทธิ์เหล่านี้ก็ใกล้เคียงที่สุด เกี่ยวข้องกับรูปแบบการสุ่มตัวอย่างที่แท้จริง)
การทำให้เป็นมาตรฐาน (L2) เป็นเพียงกลไกในการลดความแปรปรวนในแบบจำลองและทำให้ "เส้นโค้ง" เรียบเนียนขึ้นเพื่อให้เหมาะสมกับข้อมูลในอนาคตมากขึ้นหรือเป็นการใช้ประโยชน์จากฮิวริสติกที่ได้มาจากการสังเกตว่า มันเป็นแถลงการณ์ที่ถูกต้องหรือไม่ว่าโมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์สูง ถ้าเป็นเช่นนั้นทุกคนสามารถอธิบายกลไกเบื้องหลังปรากฏการณ์เล็กน้อยและ / หรือชี้นำฉันไปยังวรรณกรรมบางเล่มได้หรือไม่?