Ridge และ LASSO ได้รับโครงสร้างความแปรปรวนร่วมหรือไม่?


11

หลังจากอ่านบทที่ 3 ในองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie, Tibshrani & Friedman) ฉันสงสัยว่ามันเป็นไปได้หรือไม่ที่จะใช้วิธีการหดตัวที่มีชื่อเสียงที่อ้างถึงในชื่อของคำถามนี้เนื่องจากโครงสร้างความแปรปรวนร่วมลดลง ) ปริมาณ

(yXβ)TV1(yXβ)+λf(β),   (1)

แทนปกติ นี่เป็นแรงบันดาลใจส่วนใหญ่จากความจริงที่ว่าในแอปพลิเคชันของฉันโดยเฉพาะเรามีความแตกต่างที่แตกต่างกันสำหรับ (และบางครั้งก็เป็นโครงสร้างความแปรปรวนร่วมที่สามารถประเมินได้) พวกเขาในการถดถอย ฉันทำเพื่อการถดถอยสัน: อย่างน้อยเมื่อมีการนำไปใช้ใน Python / C ฉันเห็นว่ามีความแตกต่างที่สำคัญในเส้นทางที่ค่าสัมประสิทธิ์การติดตามซึ่งเป็นที่น่าสังเกตเช่นกันเมื่อเปรียบเทียบเส้นโค้งการตรวจสอบข้ามในทั้งสองกรณีy

(yXβ)(yXβ)+λf(β).            (2)
y

ผมได้รับในขณะนี้เตรียมที่จะพยายามที่จะใช้เชือกผ่านมุมน้อยถดถอย แต่ในการที่จะทำมันผมต้องพิสูจน์แรกที่ทุกคุณสมบัติที่ดีของมันยังคงถูกต้องเมื่อลด(1)แทน(2)(2)จนถึงตอนนี้ฉันยังไม่เห็นงานใด ๆ ที่ทำสิ่งนี้ทั้งหมดจริง ๆ แต่เมื่อไม่นานมานี้ฉันยังได้อ่านข้อความที่กล่าวว่า " ผู้ที่ไม่รู้สถิติจะต้องค้นพบอีกครั้ง " (โดยแบรดอีฟรอนหรือไม่? ) นั่นคือสาเหตุที่ฉันถามที่นี่ก่อน (เนื่องจากฉันเป็นผู้มาใหม่ในวรรณคดีสถิติ): สิ่งนี้ได้ทำไปแล้วสำหรับรุ่นเหล่านี้หรือไม่ มันนำมาใช้ใน R ในทางใดทางหนึ่งหรือไม่? (รวมถึงการแก้ปัญหาและการใช้งานของสันเขาด้วยการย่อ(1)แทน(2)สิ่งที่นำไปใช้ในรหัส lm.ridge ใน R)

ขอบคุณล่วงหน้าสำหรับคำตอบของคุณ!


คำตอบก่อนหน้านี้ยังได้รับการรายงานพร้อมรายละเอียดเพิ่มเติมในen.wikipedia.org/wiki/Generalized_least_squaresวิธีการแก้ปัญหาสามารถดำเนินการได้โดยใช้วิธี Feasible Generalized Least Square (FGLS)
นิโคลาจีน

คำตอบ:


13

ถ้าเรารู้ว่าการสลายตัวของ Choleskyให้พูดแล้ว และเราสามารถใช้ขั้นตอนวิธีการมาตรฐาน (กับสิ่งที่ฟังก์ชั่นการปรับไหมหนึ่งชอบ) โดยการเปลี่ยนการตอบสนองกับเวกเตอร์และพยากรณ์ที่มีเมทริกซ์LXV-1=LTL

(Y-Xβ)TV-1(Y-Xβ)=(LY-LXβ)T(LY-LXβ)
LYLX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.