นี่เป็นคำถามที่น่าสนใจ น่าแปลกที่มันเป็นไปได้ที่จะทำอะไรบางอย่างภายใต้สมมติฐานบางอย่าง แต่มีการสูญเสียข้อมูลเกี่ยวกับความแปรปรวนที่เหลือ มันขึ้นอยู่กับXว่าหายไปมากแค่ไหน
ลองพิจารณาดังต่อไปนี้ค่าการสลายตัวเอกพจน์ของกับเมทริกซ์ที่มีคอลัมน์ orthonormal,เส้นทแยงมุมเมทริกซ์ที่มีค่าเอกพจน์บวกในแนวทแยงมุมและ aเมทริกซ์มุมฉาก จากนั้นคอลัมน์ของสร้างพื้นฐาน orthonormal สำหรับพื้นที่คอลัมน์ของและ
เป็นเวกเตอร์ของสัมประสิทธิ์สำหรับการประมาณค่าบนพื้นที่คอลัมน์นี้เมื่อขยายใน X U n × P D d 1 ≥ d 2 ≥ . . ≥ d p > 0 V p × p U X Z =X=UDVtXUn×pDd1≥d2≥...≥dp>0Vp×pUXY U Z X
Z=UtY=D−1VtVDUtY=D−1VtXtY
YUพื้นฐาน column จากสูตรที่เราเห็นว่าคำนวณจากความรู้ของและเท่านั้น
ZXXtY
เนื่องจากการคาดการณ์การถดถอยสันสำหรับสามารถคำนวณได้เป็น
เราเห็นว่าสัมประสิทธิ์สำหรับตัวทำนายการถดถอยของสันเขาในรูปแบบ column คือ
ตอนนี้เราให้สมมติฐานว่าการกระจายมีหมายถึงมิติและความแปรปรวนเมทริกซ์I_n แล้วมีมิติเฉลี่ยและความแปรปรวนเมทริกซ์I_p ถ้าเราจินตนาการถึงความเป็นอิสระY = X ( X เสื้อ X + λ ฉัน) - 1 X T Y = U D ( D 2 + λ ฉัน) - 1 D Z Y n ξ σ 2 ฉันn Z พียูที ξ σ 2 ฉันP Y ใหม่λ U Z =D( D 2 +λI ) -
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
UZ^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNewมีการแจกแจงแบบเดียวกับ (ทุกอย่างที่มีเงื่อนไขบนจากที่นี่)สอดคล้องกันมีเหมือนกัน การกระจายเป็นและเป็นอิสระและ
นี่คือความเท่าเทียมที่สามตามมาด้วย orthogonality ของและและที่สี่จากความจริงที่ว่า
X Z ใหม่ = U T Y ใหม่ Z E | | Y ใหม่- Y | | 2YXZNew=UtYNewZYใหม่-UZใหม่UZใหม่-U Z Uเอ่อ0λE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^Uมีคอลัมน์ปกติ ปริมาณเป็นข้อผิดพลาดที่เราไม่สามารถได้รับข้อมูลใด ๆ เกี่ยวกับ แต่มันไม่ได้ขึ้นอยู่อย่างใดอย่างหนึ่ง เพื่อลดข้อผิดพลาดการทำนายที่ด้านซ้ายมือเราต้องลดคำที่สองทางด้านขวามือให้น้อยที่สุด
Err0λ
โดยการคำนวณมาตรฐาน
นี่เป็นที่รู้จักกันองศาที่มีประสิทธิภาพของเสรีภาพสำหรับถดถอยสันกับพารามิเตอร์\ตัวประมาณค่าที่เป็นกลางของคือ
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
เรารวมสิ่งนี้เข้ากับตัวประมาณ (ไม่เอนเอียง)
ของระบุว่าเรารู้ซึ่งเราต้องลดให้น้อยที่สุด เห็นได้ชัดว่านี้สามารถทำได้ถ้าเรารู้หรือมีการคาดเดาที่เหมาะสมหรือประมาณการของ 2
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
การประมาณอาจเป็นปัญหาได้มากกว่า เป็นไปได้ที่จะแสดงว่า
ดังนั้นหากมีความเป็นไปได้ที่จะเลือกน้อยมากจนไม่สามารถให้ความลำเอียงยกกำลังสองเราสามารถลองประมาณเป็น
ถ้างานนี้จะขึ้นอยู่มากในXσ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λσ2σ^2=1p−d(λ)||Z−Z^||2.
X
สำหรับรายละเอียดบางอย่างดูหัวข้อ 3.4.1 และบทที่ 7 ในการสอนภาษาอังกฤษหรือบางทีอาจจะดียิ่งขึ้นในบทที่ 2 GAM