เหตุใดการถดถอยของสันจึงเรียกว่า“ สันเขา” ทำไมมันถึงต้องการและอะไรจะเกิดขึ้นเมื่อไปไม่มีที่สิ้นสุด?


71

การประมาณค่าสัมประสิทธิ์การถดถอยริดจ์เป็นค่าที่ลดค่าβ^R

RSS+λj=1pβj2.

คำถามของฉันคือ:

  1. หากเราจะเห็นว่านิพจน์ด้านบนลดลงเป็น RSS ปกติ เกิดอะไรขึ้นถ้า ? ฉันไม่เข้าใจคำอธิบายในตำราของพฤติกรรมของสัมประสิทธิ์λ=0λ

  2. เพื่อช่วยในการทำความเข้าใจแนวคิดเบื้องหลังคำเฉพาะทำไมคำที่เรียกว่าการถดถอย RIDGE? (ทำไมต้องริดจ์?) และมีอะไรผิดปกติกับการถดถอยปกติ / ทั่วไปที่มีความต้องการที่จะแนะนำแนวคิดใหม่ที่เรียกว่าการถดถอยของสันเขา?

ข้อมูลเชิงลึกของคุณจะดีมาก

คำตอบ:


89

เมื่อคุณขอข้อมูลเชิงลึกฉันจะใช้วิธีการที่เป็นธรรมชาติมากกว่าจะเป็นวิธีการทางคณิตศาสตร์มากกว่า:

  1. ตามแนวคิดในคำตอบของฉันที่นี่เราสามารถกำหนดสันเขาถดถอยเป็นถดถอยด้วยข้อมูลหุ่นโดยการเพิ่มการสังเกต (ในสูตรของคุณ) โดยที่ ,และสำหรับเจ หากคุณเขียน RSS ใหม่สำหรับชุดข้อมูลที่ขยายนี้คุณจะเห็นการสังเกตเพิ่มเติมแต่ละคำเพิ่มฟอร์มดังนั้น RSS ใหม่เป็นต้นฉบับ - และย่อเล็กสุด RSS ในชุดข้อมูลใหม่ที่ขยายเพิ่มนี้จะเหมือนกับการลดเกณฑ์การถดถอยของสันเขาpyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    แล้วเราจะเห็นอะไรที่นี่? เมื่อเพิ่มขึ้น -rows เพิ่มเติมแต่ละอันจะมีองค์ประกอบหนึ่งที่เพิ่มขึ้นและอิทธิพลของจุดเหล่านี้ก็เพิ่มขึ้นเช่นกัน พวกเขาดึงไฮเปอร์เพลนที่กระชับเข้าหาตัวเอง แล้วเป็นและส่วนประกอบที่สอดคล้องกันของ 's ออกไปอินฟินิตี้ทั้งหมดที่เกี่ยวข้องกับค่าสัมประสิทธิ์ 'แผ่ออก' เพื่อ0λxλx0

    กล่าวคือการลงโทษจะมีผลน้อยที่สุดดังนั้น s จะเป็นศูนย์ หากการสกัดกั้นไม่ได้ถูกลงโทษ (กรณีปกติ) โมเดลจะลดขนาดลงเรื่อย ๆ ไปสู่ค่าเฉลี่ยของการตอบสนองλβ

  2. ฉันจะให้ความรู้สึกที่เข้าใจง่ายว่าทำไมเราถึงพูดถึงสันเขาก่อน (ซึ่งยังแนะนำว่าทำไมมันถึงต้องการ) จากนั้นจัดการกับประวัติศาสตร์เล็กน้อย คำถามแรกถูกดัดแปลงจากคำตอบของฉันที่นี่ :

    หากมีความสัมพันธ์หลายแนวคุณจะได้รับ "สันเขา" ในฟังก์ชั่นความน่าจะเป็น (ความน่าจะเป็นคือฟังก์ชั่นของ ) สิ่งนี้จะส่งผลให้ "หุบเขา" ยาวใน RSS (ตั้งแต่ RSS = )β2logL

    การถดถอยของสันเขา "แก้ไข" สันเขา - มันเป็นการเพิ่มบทลงโทษที่เปลี่ยนสันเขาให้เป็นจุดสูงสุดที่ดีในพื้นที่ที่น่าจะเป็นซึ่งเท่ากับภาวะซึมเศร้าที่ดีในเกณฑ์ที่เรากำลังลดลง:

    สันเขาใน LS กลายเป็นจุดสูงสุดในการถดถอยสัน
    [ ภาพที่ชัดเจนขึ้น ]

    เรื่องจริงที่อยู่เบื้องหลังชื่อนั้นซับซ้อนกว่าเล็กน้อย ในปี 1959 AE Hoerl [1] แนะนำการวิเคราะห์สันเขาสำหรับวิธีการตอบสนองของพื้นผิวและในไม่ช้า [2] ก็ปรับตัวให้เข้ากับการรับมือกับความหลากสีในการถดถอย ('การถดถอยสัน') ดูตัวอย่างการอภิปรายโดย RW Hoerl ใน [3] ซึ่งอธิบายการใช้โครงร่างของพื้นผิวการตอบสนองของ Hoerl (AE ไม่ใช่ RW) ในการระบุตำแหน่งที่จะมุ่งหน้าเพื่อค้นหา optima ในท้องถิ่น สัน ') ในปัญหาที่ไม่มีเงื่อนไขปัญหาของสันเขาที่ยาวมากเกิดขึ้นและข้อมูลเชิงลึกและวิธีการจากการวิเคราะห์สันถูกปรับให้เข้ากับประเด็นที่เกี่ยวข้องกับความน่าจะเป็น / RSS ในการถดถอยทำให้เกิดการถดถอยของสัน

* ตัวอย่างของแผนการตอบสนองของพื้นผิวการตอบสนอง (ในกรณีของการตอบสนองกำลังสอง) สามารถดูได้ที่นี่ (รูปที่ 3.9-3.12)

นั่นคือ "สัน" หมายถึงลักษณะของฟังก์ชั่นที่เราพยายามปรับให้เหมาะสมแทนที่จะเพิ่ม "สัน" (+ เส้นทแยงมุม) ไปยังเมทริกซ์ (ดังนั้นในขณะที่การถดถอยสันจะเพิ่มเส้นทแยงมุม นั่นไม่ใช่เหตุผลที่เราเรียกว่าการถดถอยแบบ 'ริดจ์')XTX

สำหรับข้อมูลเพิ่มเติมบางอย่างเกี่ยวกับความต้องการการถดถอยของสันเขาให้ดูลิงก์แรกภายใต้รายการ 2 ด้านบน


อ้างอิง:

[1]: Hoerl, AE (1959) ทางออกที่ดีที่สุดของสมการตัวแปรหลายตัว ความก้าวหน้าทางวิศวกรรมเคมี , 55 (11) 69-78.

[2]: Hoerl, AE (1962) การประยุกต์การวิเคราะห์สันเขากับปัญหาการถดถอย ความก้าวหน้าทางวิศวกรรมเคมี , 58 (3) 54-59.

[3] Hoerl, RW (1985) การวิเคราะห์สัน 25 ปีต่อมา นักสถิติชาวอเมริกัน , 39 (3), 186-192


2
สิ่งนี้มีประโยชน์มาก ใช่ตอนที่ฉันขอข้อมูลเชิงลึกฉันกำลังมองหาสัญชาตญาณ แน่นอนว่าคณิตศาสตร์มีความสำคัญ แต่ฉันก็กำลังมองหาคำอธิบายเกี่ยวกับแนวคิดเพราะมีบางส่วนเมื่อคณิตศาสตร์อยู่เหนือฉัน ขอบคุณอีกครั้ง.
cgo

ทำไมคุณถึงมีคำว่า "ถ่วงน้ำหนัก" ในสัญลักษณ์หัวข้อ 1?
อะมีบา

1
มันเป็นคำถามที่ดี ไม่จำเป็นต้องให้น้ำหนักหากไม่มีการถ่วงน้ำหนักดั้งเดิม ฉันได้ลบคำคุณศัพท์ นอกจากนี้ยังเป็นไปได้ที่จะเขียนเป็นการถดถอยแบบถ่วงน้ำหนัก (ซึ่งถ้าคุณกำลังทำการถดถอยแบบถ่วงน้ำหนักอยู่แล้วอาจจะง่ายขึ้นเล็กน้อยในการจัดการ)
Glen_b

36
  1. ถ้าโทษของเราจะไม่มีที่สิ้นสุดสำหรับอื่นนอกเหนือจากนั่นคือสิ่งที่เราจะได้รับ ไม่มีเวกเตอร์อื่นที่จะทำให้เรามีค่า จำกัด ของฟังก์ชันวัตถุประสงค์λββ=0

(อัปเดต: โปรดดูคำตอบของ Glen_b นี่ไม่ใช่เหตุผลทางประวัติศาสตร์ที่ถูกต้อง!)

  1. สิ่งนี้มาจากการแก้ปัญหาการถดถอยของริดจ์ในสัญ การแก้ปัญหากลายเป็น คำว่าเพิ่ม "สันเขา" ในแนวทแยงมุมหลักและรับประกันได้ว่าเมทริกซ์ที่เกิดขึ้นจะกลับด้านได้ ซึ่งหมายความว่าไม่เหมือน OLS เราจะได้รับการแก้ไขเสมอ
    β^=(XTX+λI)1XTY.
    λI

การถดถอยของสันเขามีประโยชน์เมื่อตัวทำนายมีความสัมพันธ์กัน ในกรณีนี้ OLS สามารถให้ผลลัพธ์ที่ยอดเยี่ยมด้วยค่าสัมประสิทธิ์จำนวนมาก แต่หากพวกเขาถูกลงโทษเราจะได้รับผลลัพธ์ที่สมเหตุสมผลมากขึ้น โดยทั่วไปแล้วข้อได้เปรียบที่สำคัญสำหรับการถดถอยของสันเขาคือการแก้ปัญหานั้นมีอยู่เสมอดังที่กล่าวไว้ข้างต้น สิ่งนี้ใช้กับกรณีที่ซึ่ง OLS ไม่สามารถให้บริการโซลูชั่น (ไม่ซ้ำกัน)n<p

การถดถอยของสันเขายังเป็นผลลัพธ์เมื่อมีการวางแบบปกติไว้บน vectorβ

นี่คือการใช้เวลาในการถดถอยแบบเบย์สัน: สมมติว่าก่อนสำหรับเราเป็นI_p) จากนั้นเพราะ [โดยการสันนิษฐาน] เรามี ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

ลองหาโหมดด้านหลัง (เราสามารถดูค่าเฉลี่ยด้านหลังหรือสิ่งอื่น ๆ ได้เช่นกัน แต่สำหรับสิ่งนี้ลองดูที่โหมดนั่นคือค่าที่เป็นไปได้มากที่สุด) ซึ่งหมายความว่าเราต้องการ ซึ่งเทียบเท่ากับ

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
เพราะเป็นเสียงเดียวอย่างเคร่งครัดและสิ่งนี้จะเทียบเท่ากับ log
minβRp||yXβ||2+λβTβ

ซึ่งควรดูคุ้นเคยดี

ดังนั้นเราจะเห็นว่าถ้าเราใส่ปกติก่อนด้วยค่าเฉลี่ย 0 และความแปรปรวนบนเวกเตอร์ของเราค่าของที่เพิ่มค่าหลังให้มากที่สุดคือตัวประมาณสันเขา โปรดทราบว่าสิ่งนี้ถือว่ามากขึ้นในฐานะพารามิเตอร์ที่ใช้บ่อยเพราะไม่มีก่อนหน้านี้ แต่มันไม่เป็นที่รู้จักดังนั้นจึงไม่ได้เป็นแบบเบย์ทั้งหมดσ2λββσ2

แก้ไข: คุณถามเกี่ยวกับกรณีที่<p เรารู้ว่าไฮเปอร์เพลนในถูกกำหนดโดยจุดอย่างแน่นอน ถ้าเรากำลังดำเนินการถดถอยเชิงเส้นและแล้วเราว่าสอดแทรกข้อมูลของเราและได้รับ0 นี่เป็นวิธีการแก้ปัญหา แต่เป็นสิ่งที่แย่มากประสิทธิภาพของเราสำหรับข้อมูลในอนาคตมีแนวโน้มที่จะสุดซึ้ง ทีนี้สมมติว่า : ไม่มีไฮเปอร์เพลนที่ไม่ซ้ำกันที่กำหนดโดยจุดเหล่านี้อีกต่อไป เราสามารถใส่ไฮเปอร์เพลนจำนวนมากได้ซึ่งแต่ละอันมีผลรวมกำลังสองเหลือ 0n<pRppn=p||yXβ^||2=0n<p

ตัวอย่างที่ง่ายมาก: สมมติว่า2 จากนั้นเราจะได้เส้นตรงระหว่างสองจุดนี้ ตอนนี้สมมติว่าแต่3 ลองนึกภาพเครื่องบินที่มีสองจุดนี้อยู่ เราสามารถหมุนระนาบนี้ได้โดยไม่ต้องเปลี่ยนความจริงที่ว่าจุดสองจุดนี้อยู่ในนั้นดังนั้นจึงมีโมเดลมากมายนับไม่ถ้วนทั้งหมดที่มีฟังก์ชั่นวัตถุประสงค์ที่สมบูรณ์แบบของเราดังนั้นแม้จะเกินประเด็นเรื่องการ overfittingn=p=2n=2p=3

ตามความคิดเห็นสุดท้าย (ตามคำแนะนำของ @ gung) LASSO (โดยใช้การลงโทษ ) มักถูกใช้สำหรับปัญหามิติสูงเพราะมันจะทำการเลือกตัวแปรโดยอัตโนมัติ (ตั้งค่า ) โดยอัตโนมัติ น่ายินดีพอมันกลับกลายเป็นว่า LASSO เทียบเท่ากับการค้นหาโหมดหลังเมื่อใช้การอธิบายแบบทวีคูณ (หรือ Laplace) ก่อนหน้าบน vector เวกเตอร์ LASSO ยังมีข้อ จำกัด บางประการเช่นการอิ่มตัวที่ตัวทำนายและไม่จำเป็นต้องจัดการกลุ่มของตัวทำนายที่สัมพันธ์กันในแบบอุดมคติดังนั้นจึงใช้ตาข่ายยืดหยุ่น (การรวมตัวนูนของและการลงโทษ)L1βj=0βnL1L2


1
(+1) คำตอบของคุณอาจได้รับการปรับปรุงโดยอธิบายเกี่ยวกับการเชื่อมต่อระหว่าง Bayesian และการถดถอยของสันเขา
Sycorax

1
จะทำ - พิมพ์มันตอนนี้
jld

4
OLS ไม่พบโซลูชันที่ไม่ซ้ำเมื่อเนื่องจากเมทริกซ์การออกแบบไม่ได้อยู่ในอันดับเต็ม นี่เป็นคำถามที่พบบ่อยมาก โปรดค้นหาคลังเก็บเพื่อดูคำอธิบายว่าเหตุใดจึงไม่ทำงาน n<p
Sycorax

2
@cgo: คำอธิบายของผู้ใช้และคำแนะนำในการค้นหาเกี่ยวกับ user777 เป็นสิ่งที่ดี แต่เพื่อความสมบูรณ์ฉันได้เพิ่มคำอธิบายที่ใช้งานง่าย (หวังว่า)
jld

5
+1, คำตอบที่ดี ไม่ <p, คุณอาจพูดถึงว่า LASSO มักใช้ในกรณีนี้ & เกี่ยวข้องกับ RR อย่างใกล้ชิด
gung
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.