สันเขาถดถอยประมาณการพารามิเตอร์ในแบบจำลองเชิงเส้นโดย\ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y โดยที่\ lambdaเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน เป็นที่ทราบกันดีว่ามันมักจะทำงานได้ดีกว่าการถดถอย OLS (ด้วย\ lambda = 0 ) เมื่อมีตัวทำนายที่สัมพันธ์กันจำนวนมาก
ทฤษฎีการดำรงอยู่ของสันเขาถดถอยบอกว่ามีพารามิเตอร์\ lambda ^ *> 0อยู่เสมอนั่นหมายความว่า - กำลังสอง - ข้อผิดพลาดของ\ hat {\ boldsymbol \ beta} _ \ lambdaเล็กกว่าค่าเฉลี่ย - ข้อผิดพลาดของ OLS เคร่งครัด การประมาณค่า\ hat {\ boldsymbol \ เบต้า} _ \ mathrm {OLS} = \ hat {\ boldsymbol \ กล่าวอีกนัยหนึ่งค่าที่ดีที่สุดของ\ lambdaนั้นไม่ใช่ศูนย์เสมอ เห็นได้ชัดว่านี่เป็นครั้งแรกที่ได้รับการพิสูจน์ในHoerl และ Kennard ปี 1970และมีการทำซ้ำในบันทึกการบรรยายหลายครั้งที่ฉันพบทางออนไลน์ (เช่นที่นี่และที่นี่ ) คำถามของฉันเกี่ยวกับสมมติฐานของทฤษฎีบทนี้:
มีสมมติฐานเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมหรือไม่?
มีสมมติฐานเกี่ยวกับมิติของหรือไม่?
โดยเฉพาะคือทฤษฎีบทยังคงเป็นจริงหากทำนายเป็น orthogonal (เช่นเป็นแนวทแยงมุม) หรือแม้ว่า ? และมันยังคงเป็นจริงหากมีเพียงหนึ่งหรือสองตัวทำนาย (พูดตัวทำนายหนึ่งตัวและการสกัดกั้น)?
หากทฤษฎีบทไม่มีข้อสมมติฐานดังกล่าวและยังคงเป็นจริงแม้ในกรณีเหล่านี้แล้วเหตุใดจึงแนะนำให้ใช้การถดถอยแบบสันในกรณีของตัวพยากรณ์ที่สัมพันธ์กันเท่านั้นและไม่เคยแนะนำ (สำหรับการถดถอยแบบง่าย)
สิ่งนี้เกี่ยวข้องกับคำถามของฉันเกี่ยวกับมุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในรูปแบบผสมคืออะไร แต่ไม่มีคำตอบใดที่จะชี้แจงประเด็นนี้จนถึงขณะนี้