คำถามติดแท็ก ridge-regression

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งย่อค่าสัมประสิทธิ์เป็นศูนย์

2
สันถดถอย - การตีความแบบเบย์
ฉันได้ยินมาว่าการถดถอยของสันเขานั้นสามารถได้มาจากค่าเฉลี่ยของการแจกแจงหลังถ้าหากได้รับการคัดเลือกอย่างเพียงพอ สัญชาตญาณว่าข้อ จำกัด ตามที่กำหนดไว้ในสัมประสิทธิ์การถดถอยโดยก่อนหน้านี้ (เช่นการแจกแจงแบบปกติมาตรฐานประมาณ 0) เหมือนกัน / แทนที่การลงโทษที่กำหนดไว้ในขนาดกำลังสองของสัมประสิทธิ์หรือไม่? ก่อนหน้านี้จะต้องเป็นแบบเกาส์สำหรับการเทียบเท่านี้จะถือ?

1
การผ่อนคลายลากรองจ์ในบริบทของการถดถอยของสันเขา
ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed), p63, ผู้เขียนให้สองสูตรต่อไปนี้ของปัญหาการถดถอยสัน: β^R ฉันวันที่ก.อี= argminβ{ ∑i = 1ยังไม่มีข้อความ( yผม- β0-∑j =1พีxฉันเจβJ)2+ λ ∑j = 1พีβ2J}β^Rผมdก.อี=argminβ{Σผม=1ยังไม่มีข้อความ(Yผม-β0-ΣJ=1พีxผมJβJ)2+λΣJ=1พีβJ2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} และ β^R ฉันวันที่ก.อี= argminβΣi = 1ยังไม่มีข้อความ( yผม- β0- ∑j = 1พีxฉันเจβJ)2ภายใต้ ∑j = 1พีβ2J≤ ทีβ^Rผมdก.อี=argminβΣผม=1ยังไม่มีข้อความ(Yผม-β0-ΣJ=1พีxผมJβJ)2ภายใต้ ΣJ=1พีβJ2≤เสื้อ. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} …

4
การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน
ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

1
ค่าสัมประสิทธิ์การถดถอยแนวสันที่ใหญ่กว่าค่าสัมประสิทธิ์ OLS หรือเครื่องหมายการเปลี่ยนแปลงนั้นขึ้นอยู่กับ
เมื่อเรียกใช้การถดถอยแบบสันคุณจะตีความค่าสัมประสิทธิ์ที่มีขนาดใหญ่กว่าค่าสัมประสิทธิ์ที่เกี่ยวข้องภายใต้กำลังสองน้อยที่สุด (สำหรับค่าบางค่าของ ) อย่างไร การถดถอยสันไม่ควรทำให้ค่าสัมประสิทธิ์หดตัวเป็นก้อนหรือไม่λλ\lambda ในบันทึกที่เกี่ยวข้องเราตีความค่าสัมประสิทธิ์ที่มีการเปลี่ยนแปลงเครื่องหมายระหว่างการถดถอยของสันได้อย่างไร (กล่าวคือการติดตามของสันเขาข้ามจากลบเป็นบวกกับพล็อตการติดตามสัน)

3
วิธีการหาค่าสัมประสิทธิ์การถดถอย
ในการถดถอยสันฟังก์ชันวัตถุประสงค์ที่จะลดลงคือRSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. สิ่งนี้สามารถเพิ่มประสิทธิภาพโดยใช้วิธีการเพิ่มทวีคูณ หรือมันคือความแตกต่างตรง?

2
AIC, BIC และ GCV: อะไรที่ดีที่สุดสำหรับการตัดสินใจในวิธีการลงโทษที่ถูกลงโทษ?
ความเข้าใจทั่วไปของฉันคือAICเกี่ยวข้องกับการแลกเปลี่ยนระหว่างความดีงามของแบบและความซับซ้อนของแบบจำลอง A Iค= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = จำนวนพารามิเตอร์ในโมเดล LLL = ความเป็นไปได้ เกณฑ์ข้อมูล Bayesian BICนั้นเกี่ยวข้องกับ AIC อย่างมาก AIC จะลงโทษจำนวนพารามิเตอร์ที่น้อยกว่า BIC ฉันเห็นว่ามีการใช้สองสิ่งนี้ทุกที่ในอดีต แต่การตรวจสอบข้ามโดยทั่วไป (GCV) นั้นใหม่สำหรับฉัน GCV เกี่ยวข้องกับ BIC หรือ AIC ได้อย่างไร วิธีการเหล่านี้ใช้ร่วมกันหรือแยกออกจากกันในการเลือกระยะเวลาการลงโทษในการถดถอยแบบแผงเหมือนสัน? แก้ไข: นี่เป็นตัวอย่างการคิดและอภิปราย: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = …

1
เหตุใดการถดถอยของ Ridge จึงทำงานได้ดีในที่ที่มีความสัมพันธ์หลายระดับ?
ฉันกำลังเรียนรู้เกี่ยวกับการถดถอยของสันเขาและรู้ว่าการถดถอยของสันเขานั้นมีแนวโน้มที่จะทำงานได้ดีขึ้นเมื่อมีความหลากหลายทางชีวภาพ ฉันสงสัยว่าทำไมสิ่งนี้ถึงเป็นจริง ทั้งคำตอบที่ใช้งานง่ายหรือคำตอบทางคณิตศาสตร์ก็น่าพอใจ (คำตอบทั้งสองประเภทนั้นน่าพอใจยิ่งขึ้น) นอกจากนี้ฉันรู้ว่าสามารถรับได้เสมอ แต่การถดถอยของสันจะทำงานได้ดีเพียงใดเมื่อมี collinearity ที่แน่นอน (ตัวแปรอิสระตัวหนึ่งคือฟังก์ชันเชิงเส้นของอีกตัวหนึ่ง)β^β^\hat{\beta}

1
AIC ของการถดถอยของสันเขา: องศาอิสระเทียบกับจำนวนพารามิเตอร์
ฉันต้องการคำนวณ AICc ของตัวแบบการถดถอยแนวสัน ปัญหาคือจำนวนพารามิเตอร์ สำหรับการถดถอยเชิงเส้นคนส่วนใหญ่แนะนำว่าจำนวนของพารามิเตอร์เท่ากับจำนวนของค่าสัมประสิทธิ์โดยประมาณพร้อมซิกม่า (ความแปรปรวนของข้อผิดพลาด) เมื่อพูดถึงการถดถอยของสันเขาฉันได้อ่านว่าร่องรอยของเมทริกซ์ของหมวก - ระดับความเป็นอิสระ (df) - นั้นถูกใช้เป็นจำนวนพารามิเตอร์ในสูตร AIC (เช่นที่นี่หรือที่นี่ ) ถูกต้องหรือไม่ ฉันสามารถใช้ df เพื่อคำนวณ AICc ได้หรือไม่ ฉันสามารถเพิ่ม +1 ลงในบัญชี df เพื่อดูความแปรปรวนข้อผิดพลาดได้หรือไม่

2
LASSO เลือกตัวทำนายที่สัมพันธ์กันเมื่อใด
ฉันใช้แพ็คเกจ 'lars' ใน R ด้วยรหัสต่อไปนี้: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > …

2
เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO
ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …

2
ริดจ์ลงโทษ GLM โดยใช้การเพิ่มแถว?
ฉันได้อ่านว่าการถดถอยของสันสามารถทำได้โดยการเพิ่มแถวของข้อมูลลงในเมทริกซ์ข้อมูลดั้งเดิมซึ่งแต่ละแถวถูกสร้างขึ้นโดยใช้ 0 สำหรับตัวแปรตามและรากที่สองของหรือศูนย์สำหรับตัวแปรอิสระ เพิ่มแถวพิเศษหนึ่งแถวสำหรับแต่ละตัวแปรอิสระkkk ฉันสงสัยว่ามันเป็นไปได้ที่จะได้รับการพิสูจน์ในทุกกรณีรวมถึงการถดถอยโลจิสติกหรือ GLM อื่น ๆ

2
แสดงความเท่าเทียมกันระหว่างบรรทัดฐานการถดถอยปกติและบรรทัดฐานการถดถอยแบบ จำกัด การใช้ KKT
ตามที่อ้างอิงเล่ม 1 , เล่ม 2และกระดาษ มีการกล่าวถึงว่ามีความเท่าเทียมกันระหว่างการถดถอยแบบปกติ (Ridge, LASSO และ Elastic Net) และสูตรข้อ จำกัด ฉันยังดูCross Validated 1และCross Validated 2แต่ฉันไม่สามารถเห็นคำตอบที่ชัดเจนแสดงให้เห็นว่าการเทียบเท่าหรือตรรกะ คำถามของฉันคือ จะแสดงความเท่าเทียมกันอย่างไรโดยใช้ Karush – Kuhn – Tucker (KKT) สูตรต่อไปนี้ใช้สำหรับการถดถอยแบบริดจ์ บันทึก คำถามนี้ไม่ใช่การบ้าน มันเป็นเพียงเพื่อเพิ่มความเข้าใจของฉันในหัวข้อนี้ UPDATE ฉันยังไม่มีความคิด

1
ทำความเข้าใจกับการถดถอยเชิงลบ
ฉันกำลังมองหาวรรณกรรมเกี่ยวกับการถดถอยเชิงลบสันเขา ในระยะสั้นมันเป็นลักษณะทั่วไปของการถดถอยเชิงเส้นโดยใช้เชิงลบในสูตรตัวประมาณ:กรณีในเชิงบวกมีทฤษฎีที่ดี: เป็นฟังก์ชั่นการสูญเสียเป็นข้อ จำกัด เป็น Bayes ก่อน ... แต่ฉันรู้สึกหายไปกับรุ่นเชิงลบที่มีเพียงสูตรข้างต้น มันจะมีประโยชน์สำหรับสิ่งที่ฉันทำ แต่ฉันไม่สามารถตีความได้อย่างชัดเจนบีตา = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yλλ\lambdaβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y. คุณรู้ข้อความเบื้องต้นเกี่ยวกับสันเขาเชิงลบหรือไม่? จะตีความได้อย่างไร?

5
สันเขาและลาสโซบรรทัดฐาน
โพสต์นี้ตามหลังอันนี้: ทำไมการประมาณสันถึงดีกว่า OLS โดยการเพิ่มค่าคงที่ในแนวทแยง นี่คือคำถามของฉัน: เท่าที่ฉันรู้แล้วการทำให้เป็นมาตรฐานของสันเขาใช้ -norm (ระยะทางแบบยูคลิด) แต่ทำไมเราถึงใช้สแควร์ของบรรทัดฐานนี้ (แอปพลิเคชันโดยตรงของจะส่งผลให้มีสแควร์รูทของผลรวมของเบต้ากำลังสอง)ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 เป็นการเปรียบเทียบเราไม่ทำเช่นนี้กับ LASSO ซึ่งใช้ไม่ต้องทำเป็นประจำ แต่นี่คือบรรทัดฐาน"ของจริง" (เพียงผลรวมของกำลังสองของค่าสัมบูรณ์สัมบูรณ์เบต้าและไม่ใช่กำลังสองของผลรวมนี้)ℓ 1ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1 มีคนช่วยฉันอธิบายไหม

1
วิธีการตีความผลลัพธ์เมื่อสันเขาและเชือกแยกทั้งสองทำงานได้ดี แต่ให้ค่าสัมประสิทธิ์ที่แตกต่างกัน
ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBestวิธีการในการscikit-learnที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์ หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50% นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.