การตีความการทำให้เป็นสันเป็นแนวในการถดถอย


25

ฉันมีคำถามหลายข้อเกี่ยวกับบทลงโทษริดจ์ในบริบทกำลังสองน้อยที่สุด:

βridge=(λID+XX)1Xy

1) การแสดงออกแสดงให้เห็นว่าเมทริกซ์ความแปรปรวนร่วมของ X หดตัวลงในเมทริกซ์แนวทแยงซึ่งหมายความว่า (สมมติว่าตัวแปรเป็นมาตรฐานก่อนขั้นตอน) ความสัมพันธ์ระหว่างตัวแปรอินพุตจะลดลง การตีความนี้ถูกต้องหรือไม่

2) ถ้ามันเป็นแอพพลิเคชั่นการหดตัวทำไมมันไม่ได้ถูกกำหนดในบรรทัดของสมมติว่าเราสามารถ จำกัด แลมบ์ดาให้อยู่ในช่วง [0,1] ด้วยการทำให้เป็นมาตรฐาน .(λID+(1λ)XX)

3) อะไรที่เป็นมาตรฐานสำหรับเพื่อให้สามารถ จำกัด ช่วงมาตรฐานเช่น [0,1]λ

4) การเพิ่มค่าคงที่ในแนวทแยงจะมีผลต่อค่าลักษณะเฉพาะทั้งหมด มันจะดีกว่าไหมถ้าจะโจมตีเฉพาะค่าเอกฐานหรือค่าเอกฐาน นี่เทียบเท่ากับการใช้ PCA กับ X และการรักษาส่วนประกอบหลักบน N ก่อนการถดถอยหรือมีชื่อแตกต่างกัน (เนื่องจากไม่ได้แก้ไขการคำนวณความแปรปรวนร่วมแบบครอส)

5) เราสามารถทำให้ค่าความแปรปรวนร่วมเป็นประจำหรือใช้อย่างใดอย่างหนึ่งหรือมีความหมาย

βridge=(λID+XX)1(γXy)

ที่ขนาดเล็กจะลดความแปรปรวนร่วม เห็นได้ชัดว่าสิ่งนี้ช่วยลด s ทั้งหมดได้อย่างเท่าเทียมกัน แต่อาจมีวิธีที่ชาญฉลาดกว่าเช่นการนวดแบบหนัก / อ่อนขึ้นอยู่กับค่าความแปรปรวนร่วมγβ


บทลงโทษจากสันเขานั้นมาจากข้อ จำกัด ที่ , โดยการใช้ตัวคูณ Lagrange บนฟังก์ชันวัตถุประสงค์ MSE LASSO เหมือนกัน แต่กับแทน. ฉันอยู่ในโทรศัพท์ของฉันดังนั้นฉันไม่สามารถโพสต์ที่มาได้อย่างง่ายดายในขณะนี้ แต่คำถามเหล่านี้เป็นคำถามที่ดีβ2T|β|
shadowtalker

คำตอบ:


19

เป็นคำถามที่ดี!

  1. ใช่ถูกต้องแน่นอน คุณสามารถเห็นบทลงโทษจากสันเขาเป็นวิธีหนึ่งที่เป็นไปได้ในการจัดการกับปัญหาพหุนิยมที่เกิดขึ้นเมื่อผู้ทำนายหลายคนมีความสัมพันธ์สูง การแนะนำการลงโทษสันเขาอย่างมีประสิทธิภาพช่วยลดความสัมพันธ์เหล่านี้

  2. ฉันคิดว่านี่เป็นประเพณีส่วนหนึ่งส่วนหนึ่งความจริงที่ว่าสูตรการถดถอยสันที่ระบุไว้ในสมการแรกของคุณดังต่อไปนี้จากฟังก์ชั่นค่าใช้จ่ายต่อไปนี้:หาก , ระยะที่สองสามารถลดลงและลดระยะแรก (ข้อผิดพลาด "ฟื้นฟู") นำไปสู่สูตร OLS มาตรฐาน\การรักษานำไปสู่ระยะที่สองสูตรสำหรับ{} ฟังก์ชั่นค่าใช้จ่ายนี้สะดวกในการจัดการทางคณิตศาสตร์และนี่อาจเป็นหนึ่งในเหตุผลที่เลือกแลมบ์ "แบบไม่ปกติ"

    L=yXβ2+λβ2.
    λ=0ββridge
  3. วิธีที่เป็นไปได้วิธีหนึ่งที่จะทำให้ปกติคือการวัดโดยรวมความแปรปรวนคือใช้แทน\นี้จะไม่จำเป็นต้อง จำกัด ขอบเขตไปแต่จะทำให้มัน "มิติ" และอาจจะส่งผลที่ดีที่สุดเป็นน้อยแล้วในกรณีที่การปฏิบัติทั้งหมด (หมายเหตุ: นี่เป็นเพียงการคาดเดา!)λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "โจมตีค่าลักษณะเฉพาะขนาดเล็กเท่านั้น" มีชื่อแยกต่างหากและเรียกว่าการถดถอยส่วนประกอบหลัก การเชื่อมต่อระหว่าง PCR และการถดถอยของสันเขานั้นใน PCR คุณจะได้รับ "การลงโทษขั้นตอน" อย่างมีประสิทธิภาพตัดค่าลักษณะเฉพาะทั้งหมดหลังจากจำนวนหนึ่งในขณะที่การถดถอยสันนำไปใช้ "โทษอ่อน" การลงโทษค่าลักษณะทั้งหมด สิ่งนี้ได้รับการอธิบายเป็นอย่างดีในองค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie และคณะ (พร้อมใช้งานออนไลน์ได้อย่างอิสระ) ส่วน 3.4.1 ดูเพิ่มเติมคำตอบของฉันในความสัมพันธ์ระหว่างการถดถอยสันเขาและ PCA ถดถอย

  5. ฉันไม่เคยเห็นสิ่งนี้มาทำ แต่โปรดทราบว่าคุณสามารถพิจารณาฟังก์ชั่นค่าใช้จ่ายในรูปแบบนี้หดตัวของคุณไม่ให้เป็นศูนย์ แต่ค่าที่กำหนดไว้ล่วงหน้าอื่น ๆ\หากหนึ่งในผลงานที่ออกคณิตศาสตร์คุณจะมาถึงกับดีที่สุดกำหนดโดยซึ่งอาจมองได้ว่าเป็น

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),

1
คุณช่วยอธิบายได้ไหมว่าทำไมการเพิ่มถึงหมายความว่าเมทริกซ์ความแปรปรวนร่วมของหดตัวลงในเมทริกซ์ทแยงมุม นี่เป็นคำถามพีชคณิตเชิงเส้นอย่างหมดจดที่ฉันคิดว่า λIDXXX
ไฮเซนเบิร์ก

3
@ ไฮเซนเบิร์กดีคือเมทริกซ์ความแปรปรวนร่วมของ (สูงสุดตัวประกอบสเกล) การคำนวณต้องการการแปลงเมทริกซ์ความแปรปรวนร่วม ในการถดถอยสันเขาเรากลับแทนดังนั้นเราจะเห็นเป็นการประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบสม่ำเสมอ ตอนนี้คำว่าคือเมทริกซ์แนวทแยงที่มีอยู่บนเส้นทแยงมุม ลองจินตนาการว่ามีขนาดใหญ่มาก จากนั้นผลรวมนั้นถูกครอบงำโดยคำที่เป็นแนวทแยงและดังนั้นความแปรปรวนแบบปกติจะกลายเป็นแนวทแยงมากขึ้นเมื่อโตขึ้นXXX1/NβXX+λIXX+λIλIλλλIλ
อะมีบาพูดว่า Reinstate Monica

wrt Q5, องค์ประกอบของการเรียนรู้ทางสถิติดูที่ข้อ จำกัด ด้านความนุ่มนวลสำหรับแอปพลิเคชันการประมวลผลภาพ (PDA - หน้า 447)
seanv507

10

ความคิดเห็นเพิ่มเติมเกี่ยวกับคำถามที่ 4 ที่จริงแล้วการถดถอยของสันเขาค่อนข้างจะจัดการกับค่าลักษณะเฉพาะขนาดเล็กของอย่างมีประสิทธิภาพในขณะที่ส่วนใหญ่จะทิ้งค่าลักษณะเฉพาะขนาดใหญ่เพียงอย่างเดียว XTX

เพื่อดูนี้แสดงประมาณการถดถอยสันในแง่ของการสลายตัวมูลค่าเอกพจน์ , X

X=i=1nσiuiviT

โดยที่เวกเตอร์ของเป็น orthogonal ร่วมกันและเวกเตอร์ก็มีมุมฉากร่วมกันเช่นกัน นี่คือลักษณะเฉพาะของเป็น ,n uiviXTXσi2i=1,2,,n

จากนั้นคุณสามารถแสดงให้เห็นว่า

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

ตอนนี้พิจารณา "ปัจจัยกรอง"แลมบ์ดา) ถ้าตัวกรองจะเป็น 1 และเราจะได้วิธีกำลังสองน้อยที่สุด ถ้าและดังนั้นตัวกรองจะเป็น 1 ถ้าแล้วปัจจัยนี้ก็คือ 0 ดังนั้นเงื่อนไขที่สอดคล้องกับค่าลักษณะเฉพาะขนาดเล็กจะเลื่อนออกได้อย่างมีประสิทธิภาพในขณะที่เงื่อนไขที่สอดคล้องกับค่าลักษณะเฉพาะขนาดใหญ่จะถูกเก็บไว้ σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

ในการเปรียบเทียบการถดถอยส่วนประกอบหลักใช้เพียงปัจจัย 1 (สำหรับค่าลักษณะเฉพาะขนาดใหญ่) หรือ 0 (สำหรับค่าลักษณะเฉพาะขนาดเล็กที่ลดลง) ในสูตรนี้


1
นั่นคือสิ่งที่ฉันพูดสั้น ๆ ในคำตอบของฉัน แต่มันดีมากที่ได้ให้รายละเอียดและสาธิตทางคณิตศาสตร์ +1
อะมีบากล่าวว่า Reinstate Monica

5

เชื่อมโยงคำถาม 1, 2 และ 3 ผมชอบที่จะคิดว่าใช่ที่แนะนำโทษริดจ์ในรูปแบบการถดถอยเชิงเส้นสามารถตีความได้ว่าการหดตัวในไอเกนค่าของXเพื่อที่จะทำให้การตีความนี้เป็นสิ่งแรกที่จะทำให้สมมติฐานที่ว่าเป็นศูนย์กลาง การตีความนี้ขึ้นอยู่กับความเท่าเทียมกันดังต่อไปนี้: มีและ1+ ถ้าทันทีตามที่1XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

เทคนิคที่คุณอธิบายว่าเป็น "การโจมตี [ไอเอ็นจี] เฉพาะค่าเอกพจน์หรือใกล้เอกพจน์" ยังเป็นที่รู้จักกันในนามการวิเคราะห์สเปกตรัมเอกพจน์ (สำหรับจุดประสงค์ของการถดถอยเชิงเส้น) (ดู Eq. 19) ถ้า "โจมตี" คุณหมายถึง " ความแปรปรวนร่วมไม่เปลี่ยนแปลง

การถอดค่าเอกพจน์ต่ำจะทำยังโดยตัวแทนถดถอยหลัก ใน PCR PCA จะดำเนินการกับและใช้การถดถอยเชิงเส้นในการเลือกส่วนประกอบที่ได้รับ ความแตกต่างกับ SSA คือมันมีผลกระทบต่อความแปรปรวนร่วมX


ขอขอบคุณ. ใน PCR ความแปรปรวนร่วมกับ y ถูกคำนวณหลังจากทำการลดขนาดแล้วไม่? นั่นคือความแตกต่างระหว่าง PCR และ SSA หรือไม่ แกมม่าของคุณ (ไม่ใช่ของฉัน) คุณเลือกได้อย่างไรว่าอัลฟาจะถูก จำกัด ขอบเขต [0,1]
Cagdas Ozgenc

1
ขออภัยเกี่ยวกับเรื่องนี้ทำให้เกิดความสับสนฉันแทนที่มันด้วย\γκ
Vincent Guillemot

ฉันคิดว่าคุณถูกต้องเกี่ยวกับความแตกต่างระหว่าง SSA และ PCR เราควรจดบันทึกไว้เพื่อให้แน่ใจ
Vincent Guillemot
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.