คำถามติดแท็ก ridge-regression

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งย่อค่าสัมประสิทธิ์เป็นศูนย์

2
หากการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับผู้ประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่
สมมติว่าฉันมีตัวประมาณสองตัวและที่เป็นตัวประมาณที่สอดคล้องกันของพารามิเตอร์เดียวกันและนั่น ด้วยในแง่ของ psd ดังนั้น asymptoticallyจะมีประสิทธิภาพมากกว่า\ตัวประมาณสองค่านี้ขึ้นอยู่กับฟังก์ชันการสูญเสียที่แตกต่างกันβˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ตอนนี้ฉันต้องการค้นหาเทคนิคการหดตัวเพื่อปรับปรุงคุณสมบัติตัวอย่าง จำกัด ของตัวประมาณของฉัน สมมติว่าผมพบว่าเทคนิคการหดตัวที่ช่วยเพิ่มประมาณการในตัวอย่างแน่นอนและทำให้ฉันมีค่าของ MSE เท่ากับ\นี่หมายความว่าฉันสามารถหาเทคนิคการหดตัวที่เหมาะสมเพื่อนำไปใช้กับ ที่จะให้ MSE ไม่มากไปกว่าหรือไม่? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 กล่าวอีกนัยหนึ่งถ้าการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับเครื่องมือประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่

1
ผลลัพธ์การถดถอยของสันเขาแตกต่างกันในการใช้ lm.ridge และ glmnet
ฉันใช้ข้อมูลบางอย่างที่จะหาทางออกที่ดีที่สุดของตัวแปรแบบการถดถอยโดยใช้การถดถอยสันในอาร์ฉันได้ใช้lm.ridgeและglmnet(เมื่อalpha=0) lambda=0แต่ผลที่แตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อ มันสมมติว่าตัวประมาณค่าพารามิเตอร์ทั้งสองมีค่าเหมือนกัน แล้วปัญหาอะไรที่นี่? ขอแสดงความนับถืออย่างสูง

1
Ridge และ LASSO ได้รับโครงสร้างความแปรปรวนร่วมหรือไม่?
หลังจากอ่านบทที่ 3 ในองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie, Tibshrani & Friedman) ฉันสงสัยว่ามันเป็นไปได้หรือไม่ที่จะใช้วิธีการหดตัวที่มีชื่อเสียงที่อ้างถึงในชื่อของคำถามนี้เนื่องจากโครงสร้างความแปรปรวนร่วมลดลง ) ปริมาณ ( y⃗ - Xβ⃗ )TV- 1( y⃗ - Xβ⃗ ) + λ f( β) , ( 1 ) (y→−Xβ→)TV−1(y→−Xβ→)+λf(β), (1)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) แทนปกติ นี่เป็นแรงบันดาลใจส่วนใหญ่จากความจริงที่ว่าในแอปพลิเคชันของฉันโดยเฉพาะเรามีความแตกต่างที่แตกต่างกันสำหรับ (และบางครั้งก็เป็นโครงสร้างความแปรปรวนร่วมที่สามารถประเมินได้) พวกเขาในการถดถอย ฉันทำเพื่อการถดถอยสัน: อย่างน้อยเมื่อมีการนำไปใช้ใน Python / C ฉันเห็นว่ามีความแตกต่างที่สำคัญในเส้นทางที่ค่าสัมประสิทธิ์การติดตามซึ่งเป็นที่น่าสังเกตเช่นกันเมื่อเปรียบเทียบเส้นโค้งการตรวจสอบข้ามในทั้งสองกรณี→ y( y⃗ - Xβ⃗ ) ( …

2
วิธีการคำนวณพารามิเตอร์การทำให้เป็นมาตรฐานในการถดถอยริดจ์ที่กำหนดองศาอิสระและเมทริกซ์อินพุต?
ให้ A เป็น matrix ของตัวแปรอิสระและ B เป็น matrix ที่สอดคล้องกันของค่าที่ขึ้นต่อกัน ในการถดถอยสันเขาเรากำหนดพารามิเตอร์เพื่อให้: B ตอนนี้ให้ [usv] = svd (A) และรายการแนวทแยงมุมของ 's' เรากำหนดองศาอิสระ (DF) =แลมบ์ดา} การถดถอยของริดจ์ลดขนาดของค่าสัมประสิทธิ์ของส่วนประกอบความแปรปรวนต่ำดังนั้นพารามิเตอร์จะควบคุมองศาอิสระดังนั้นสำหรับn×pn×pn \times pλ บีตา= ( T + λ ฉัน) - 1 T B วันที่ฉัน = ฉันทีเอช Σ n ฉัน= 1 ( d ฉัน ) 2n×1n×1n \times 1λλ\lambdaβ=(ATA+λI)−1ATBβ=(ATA+λI)−1ATB\beta=(A^\mathrm{T}A+\lambda I)^{-1}A^\mathrm{T}Bdi=ithdi=ithd_{i}=i^{th} λλ=0∑ni=1(di)2(di)2+λ∑i=1n(di)2(di)2+λ\sum_{i=1}^{n} …

2
มาตรฐานกับการทำให้เป็นมาตรฐานสำหรับ Lasso / Ridge Regression
ฉันรู้ว่ามันเป็นเรื่องธรรมดาที่จะสร้างมาตรฐานสำหรับฟีเจอร์สำหรับการถดถอยของสันเขาและบ่วงบาศ แต่มันจะเป็นประโยชน์หรือไม่ในการปรับมาตรฐานในสเกล (0,1) ให้เป็นทางเลือกแทนมาตรฐาน z-score สำหรับวิธีการถดถอยเหล่านี้

1
ประสิทธิภาพการถดถอยของเคอร์เนลเคอร์เนล
การถดถอยของสันสามารถแสดงเป็น Y^= (X'X +aผมd)- 1X xy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x ที่ไหน Y^y^\hat{y}เป็นป้ายที่คาดการณ์ระบุเมทริกซ์วัตถุที่เรากำลังพยายามที่จะหาฉลากและเมทริกซ์ของวัตถุเช่นนั้น:IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots …

2
อะไรคือ“ เอกสารเร็ว” ที่สำคัญที่สุดเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน
ในหลายคำตอบที่ฉันได้เห็นผู้ใช้ CrossValidated แนะนำ OP ค้นหาเอกสารต้นใน Lasso, Ridge และ Elastic Net สำหรับลูกหลานแล้วน้ำเชื้อทำงานอย่างไรกับ Lasso, Ridge และ Elastic Net

2
ความแตกต่างระหว่างการใช้การถดถอยริดจ์ใน R และ SAS
ผมได้อ่านคำอธิบายของการถดถอยสันในการประยุกต์ใช้เชิงเส้นสถิติรุ่นที่ 5 เอ็ดบทที่ 11. การถดถอยสันจะทำในข้อมูลไขมันในร่างกายที่มีอยู่ที่นี่ หนังสือเรียนตรงกับผลลัพธ์ใน SAS ซึ่งมีค่าสัมประสิทธิ์การแปลงกลับในรูปแบบที่เหมาะสมเป็น: Y= - 7.3978 + 0.5553 X1+ 0.3681 X2- 0.1917 X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 สิ่งนี้แสดงให้เห็นจาก SAS เมื่อ: proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = …

3
วิธีการถดถอยสันที่ไม่เป็นลบ
วิธีการถดถอยสันที่ไม่เป็นลบ บาศแบบไม่เป็นค่าลบมีให้บริการscikit-learnแต่สำหรับสันเขาฉันไม่สามารถบังคับใช้แบบไม่ลบล้างของเบต้าและแน่นอนฉันได้รับค่าสัมประสิทธิ์เชิงลบ ไม่มีใครรู้ว่าทำไมถึงเป็นเช่นนี้? นอกจากนี้ฉันสามารถใช้สันในแง่ของกำลังสองน้อยที่สุดได้หรือไม่? ย้ายสิ่งนี้ไปยังคำถามอื่น: ฉันสามารถใช้การถดถอยแบบสันในแง่ของการถดถอยแบบ OLS ได้หรือไม่?

2
คำอธิบายที่ชัดเจนสำหรับ "เสถียรภาพเชิงตัวเลขของเมทริกซ์ผกผัน" ในการถดถอยของสันเขาและบทบาทในการลดความพอดี
ฉันเข้าใจว่าเราสามารถใช้การทำให้เป็นมาตรฐานในปัญหาการถดถอยกำลังสองน้อยที่สุดเช่น w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] และปัญหานี้มีวิธีแก้ปัญหาแบบปิดเป็น: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. เราเห็นว่าในสมการที่ 2 การทำให้เป็นมาตรฐานนั้นเป็นการเพิ่มλλ\lambdaไปยังแนวทแยงของXTXXTX\boldsymbol{X}^T\boldsymbol{X}ซึ่งทำเพื่อปรับปรุงเสถียรภาพเชิงตัวเลขของการผกผันเมทริกซ์ ความเข้าใจ 'หยาบ' ปัจจุบันของฉันเกี่ยวกับเสถียรภาพเชิงตัวเลขคือถ้าฟังก์ชั่นมากขึ้น 'เสถียรภาพเชิงตัวเลข' ดังนั้นเอาต์พุตของมันจะได้รับผลกระทบน้อยลงอย่างมากจากเสียงรบกวนในอินพุต ฉันมีปัญหาเกี่ยวกับแนวคิดของความเสถียรเชิงตัวเลขที่ได้รับการปรับปรุงให้ดีขึ้นเพื่อภาพรวมที่ใหญ่ขึ้นว่าจะหลีกเลี่ยง / ลดปัญหาการ overfitting อย่างไร ฉันลองดูที่Wikipediaและเว็บไซต์มหาวิทยาลัยอื่น ๆ ไม่กี่แห่ง แต่พวกเขาก็ไม่ได้อธิบายอย่างลึกซึ้งว่าทำไมถึงเป็นเช่นนั้น

3
การตรวจสอบความถูกต้องแบบข้าม K-fold หรือ hold-out สำหรับการถดถอยแบบสันโดยใช้ R
ฉันกำลังทำงานกับการตรวจสอบความถูกต้องของการทำนายข้อมูลของฉันกับ 200 วิชาและ 1,000 ตัวแปร ฉันสนใจการถดถอยตามจำนวนตัวแปร (ฉันต้องการใช้) มากกว่าจำนวนตัวอย่าง ดังนั้นฉันต้องการใช้ตัวประมาณค่าการหดตัว ข้อมูลตัวอย่างประกอบด้วยข้อมูลต่อไปนี้: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g …

3
การเลือก k knots ในการถดถอยเส้นโค้งที่ราบเรียบเทียบเท่ากับตัวแปรเด็ดขาด k?
ฉันกำลังทำงานกับแบบจำลองการคาดการณ์ที่อายุของผู้ป่วย (จำนวนเต็มวัดเป็นปี) เป็นหนึ่งในตัวแปรตัวทำนาย ความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่งระหว่างอายุและความเสี่ยงของการเข้าพักในโรงพยาบาลจะเห็นได้ชัด: ฉันกำลังพิจารณาว่าการทำให้เส้นโค้งการถดถอยเป็นไปอย่างราบรื่นสำหรับผู้ป่วยอายุ ตามองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie et al, 2009, p.151) ตำแหน่งปมที่ดีที่สุดคือหนึ่งปมต่อค่าที่ไม่ซ้ำกันของอายุสมาชิก ระบุว่าฉันรักษาอายุเป็นจำนวนเต็มเป็น spline ปรับลงโทษให้เรียบเพื่อเรียกใช้สันเขาถดถอยหรือ lasso กับ 101 ตัวบ่งชี้ตัวแปรอายุที่แตกต่างกันหนึ่งค่าต่ออายุพบในชุดข้อมูล (ลบหนึ่งสำหรับการอ้างอิง)? การหลีกเลี่ยงค่าพารามิเตอร์มากเกินไปนั้นจะถูกหลีกเลี่ยงเนื่องจากค่าสัมประสิทธิ์ของตัวบ่งชี้อายุแต่ละตัวนั้นหดตัวลงไปเป็นศูนย์

1
การประยุกต์ใช้การถดถอยของริดจ์กับระบบสมการที่บ่อนทำลาย?
เมื่อปัญหากำลังสองน้อยที่สุดซึ่งกำหนดข้อ จำกัด เป็นทรงกลมบนค่าของ\ betaสามารถเขียนเป็น \ start {สมการ} \ \ \ {array} & \ operatorname {min} \ \ | y - X \ beta \ | ^ 2_2 \\ \ operatorname {st} \ \ | \ beta \ | ^ 2_2 \ le \ delta ^ 2 \ end {array} \ …

2
การทำความเข้าใจผลการถดถอยของสันเขา
ฉันใหม่เพื่อการถดถอยสัน เมื่อฉันใช้การถดถอยเชิงเส้นริดจ์ฉันได้ผลลัพธ์ดังต่อไปนี้: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W estimator is 0.3718668 smallest value of GCV at 0 คำถาม: ตกลงเพื่อรับค่าศูนย์GCVหรือไม่ มันหมายความว่าอะไรกันแน่? มีปัญหากับแบบจำลองของฉันหรือไม่? ฉันจะหา R2R2R^2ค่าของmyridge?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.