- ถ้าโทษของเราจะไม่มีที่สิ้นสุดสำหรับอื่นนอกเหนือจากนั่นคือสิ่งที่เราจะได้รับ ไม่มีเวกเตอร์อื่นที่จะทำให้เรามีค่า จำกัด ของฟังก์ชันวัตถุประสงค์λ→∞ββ=0
(อัปเดต: โปรดดูคำตอบของ Glen_b นี่ไม่ใช่เหตุผลทางประวัติศาสตร์ที่ถูกต้อง!)
- สิ่งนี้มาจากการแก้ปัญหาการถดถอยของริดจ์ในสัญ การแก้ปัญหากลายเป็น
คำว่าเพิ่ม "สันเขา" ในแนวทแยงมุมหลักและรับประกันได้ว่าเมทริกซ์ที่เกิดขึ้นจะกลับด้านได้ ซึ่งหมายความว่าไม่เหมือน OLS เราจะได้รับการแก้ไขเสมอ
β^=(XTX+λI)−1XTY.
λI
การถดถอยของสันเขามีประโยชน์เมื่อตัวทำนายมีความสัมพันธ์กัน ในกรณีนี้ OLS สามารถให้ผลลัพธ์ที่ยอดเยี่ยมด้วยค่าสัมประสิทธิ์จำนวนมาก แต่หากพวกเขาถูกลงโทษเราจะได้รับผลลัพธ์ที่สมเหตุสมผลมากขึ้น โดยทั่วไปแล้วข้อได้เปรียบที่สำคัญสำหรับการถดถอยของสันเขาคือการแก้ปัญหานั้นมีอยู่เสมอดังที่กล่าวไว้ข้างต้น สิ่งนี้ใช้กับกรณีที่ซึ่ง OLS ไม่สามารถให้บริการโซลูชั่น (ไม่ซ้ำกัน)n<p
การถดถอยของสันเขายังเป็นผลลัพธ์เมื่อมีการวางแบบปกติไว้บน vectorβ
นี่คือการใช้เวลาในการถดถอยแบบเบย์สัน: สมมติว่าก่อนสำหรับเราเป็นI_p) จากนั้นเพราะ [โดยการสันนิษฐาน] เรามี
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
ลองหาโหมดด้านหลัง (เราสามารถดูค่าเฉลี่ยด้านหลังหรือสิ่งอื่น ๆ ได้เช่นกัน แต่สำหรับสิ่งนี้ลองดูที่โหมดนั่นคือค่าที่เป็นไปได้มากที่สุด) ซึ่งหมายความว่าเราต้องการ
ซึ่งเทียบเท่ากับ
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
เพราะเป็นเสียงเดียวอย่างเคร่งครัดและสิ่งนี้จะเทียบเท่ากับ
logminβ∈Rp||y−Xβ||2+λβTβ
ซึ่งควรดูคุ้นเคยดี
ดังนั้นเราจะเห็นว่าถ้าเราใส่ปกติก่อนด้วยค่าเฉลี่ย 0 และความแปรปรวนบนเวกเตอร์ของเราค่าของที่เพิ่มค่าหลังให้มากที่สุดคือตัวประมาณสันเขา โปรดทราบว่าสิ่งนี้ถือว่ามากขึ้นในฐานะพารามิเตอร์ที่ใช้บ่อยเพราะไม่มีก่อนหน้านี้ แต่มันไม่เป็นที่รู้จักดังนั้นจึงไม่ได้เป็นแบบเบย์ทั้งหมดσ2λββσ2
แก้ไข: คุณถามเกี่ยวกับกรณีที่<p เรารู้ว่าไฮเปอร์เพลนในถูกกำหนดโดยจุดอย่างแน่นอน ถ้าเรากำลังดำเนินการถดถอยเชิงเส้นและแล้วเราว่าสอดแทรกข้อมูลของเราและได้รับ0 นี่เป็นวิธีการแก้ปัญหา แต่เป็นสิ่งที่แย่มากประสิทธิภาพของเราสำหรับข้อมูลในอนาคตมีแนวโน้มที่จะสุดซึ้ง ทีนี้สมมติว่า : ไม่มีไฮเปอร์เพลนที่ไม่ซ้ำกันที่กำหนดโดยจุดเหล่านี้อีกต่อไป เราสามารถใส่ไฮเปอร์เพลนจำนวนมากได้ซึ่งแต่ละอันมีผลรวมกำลังสองเหลือ 0n<pRppn=p||y−Xβ^||2=0n<p
ตัวอย่างที่ง่ายมาก: สมมติว่า2 จากนั้นเราจะได้เส้นตรงระหว่างสองจุดนี้ ตอนนี้สมมติว่าแต่3 ลองนึกภาพเครื่องบินที่มีสองจุดนี้อยู่ เราสามารถหมุนระนาบนี้ได้โดยไม่ต้องเปลี่ยนความจริงที่ว่าจุดสองจุดนี้อยู่ในนั้นดังนั้นจึงมีโมเดลมากมายนับไม่ถ้วนทั้งหมดที่มีฟังก์ชั่นวัตถุประสงค์ที่สมบูรณ์แบบของเราดังนั้นแม้จะเกินประเด็นเรื่องการ overfittingn=p=2n=2p=3
ตามความคิดเห็นสุดท้าย (ตามคำแนะนำของ @ gung) LASSO (โดยใช้การลงโทษ ) มักถูกใช้สำหรับปัญหามิติสูงเพราะมันจะทำการเลือกตัวแปรโดยอัตโนมัติ (ตั้งค่า ) โดยอัตโนมัติ น่ายินดีพอมันกลับกลายเป็นว่า LASSO เทียบเท่ากับการค้นหาโหมดหลังเมื่อใช้การอธิบายแบบทวีคูณ (หรือ Laplace) ก่อนหน้าบน vector เวกเตอร์ LASSO ยังมีข้อ จำกัด บางประการเช่นการอิ่มตัวที่ตัวทำนายและไม่จำเป็นต้องจัดการกลุ่มของตัวทำนายที่สัมพันธ์กันในแบบอุดมคติดังนั้นจึงใช้ตาข่ายยืดหยุ่น (การรวมตัวนูนของและการลงโทษ)L1βj=0βnL1L2