คำถามติดแท็ก ridge-regression

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งย่อค่าสัมประสิทธิ์เป็นศูนย์

1
การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?
ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

4
สัน, เชือกและยางยืด
วิธีเปรียบเทียบมาตรฐานของสันเขา LASSO และ elasticnet ทำอย่างไร? อะไรคือข้อดีและข้อเสียของพวกเขา? เอกสารทางเทคนิคที่ดีหรือบันทึกการบรรยายจะได้รับการชื่นชมเช่นกัน

2
การทำให้เป็นมาตรฐานของ Tikhonov เหมือนกับการถดถอยของสันเขาหรือไม่?
การทำให้เป็นมาตรฐาน Tikhonov และการถดถอยสันเป็นคำที่มักใช้ราวกับว่าพวกเขาเหมือนกัน เป็นไปได้หรือไม่ที่จะระบุอย่างชัดเจนว่าความแตกต่างคืออะไร?

2
การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่
หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์ จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

2
เหตุใดการถดถอยของสันเขา glmnet จึงให้คำตอบที่แตกต่างจากการคำนวณด้วยตนเอง
ฉันใช้ glmnet เพื่อคำนวณการถดถอยของสันเขา ฉันได้ผลลัพธ์บางอย่างที่ทำให้ฉันสงสัยว่า glmnet นั้นกำลังทำสิ่งที่ฉันคิด เพื่อตรวจสอบนี้ฉันเขียนสคริปต์ R ง่าย ๆ ที่ฉันเปรียบเทียบผลลัพธ์ของการถดถอยของสันที่กระทำโดยแก้และหนึ่งใน glmnet ความแตกต่างสำคัญ: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 บรรทัดฐานของความแตกต่างมักจะอยู่ที่ประมาณ 20 ซึ่งไม่สามารถเกิดขึ้นได้เนื่องจากอัลกอริทึมที่แตกต่างกันเชิงตัวเลขฉันต้องทำอะไรผิดพลาด การตั้งค่าใดที่ฉันต้องตั้งค่าglmnetเพื่อให้ได้ผลลัพธ์เช่นเดียวกับสันเขา

3
การตีความการทำให้เป็นสันเป็นแนวในการถดถอย
ฉันมีคำถามหลายข้อเกี่ยวกับบทลงโทษริดจ์ในบริบทกำลังสองน้อยที่สุด: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) การแสดงออกแสดงให้เห็นว่าเมทริกซ์ความแปรปรวนร่วมของ X หดตัวลงในเมทริกซ์แนวทแยงซึ่งหมายความว่า (สมมติว่าตัวแปรเป็นมาตรฐานก่อนขั้นตอน) ความสัมพันธ์ระหว่างตัวแปรอินพุตจะลดลง การตีความนี้ถูกต้องหรือไม่ 2) ถ้ามันเป็นแอพพลิเคชั่นการหดตัวทำไมมันไม่ได้ถูกกำหนดในบรรทัดของสมมติว่าเราสามารถ จำกัด แลมบ์ดาให้อยู่ในช่วง [0,1] ด้วยการทำให้เป็นมาตรฐาน .(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3) อะไรที่เป็นมาตรฐานสำหรับเพื่อให้สามารถ จำกัด ช่วงมาตรฐานเช่น [0,1]λλ\lambda 4) การเพิ่มค่าคงที่ในแนวทแยงจะมีผลต่อค่าลักษณะเฉพาะทั้งหมด มันจะดีกว่าไหมถ้าจะโจมตีเฉพาะค่าเอกฐานหรือค่าเอกฐาน นี่เทียบเท่ากับการใช้ PCA กับ X และการรักษาส่วนประกอบหลักบน N ก่อนการถดถอยหรือมีชื่อแตกต่างกัน (เนื่องจากไม่ได้แก้ไขการคำนวณความแปรปรวนร่วมแบบครอส) 5) เราสามารถทำให้ค่าความแปรปรวนร่วมเป็นประจำหรือใช้อย่างใดอย่างหนึ่งหรือมีความหมายβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ที่ขนาดเล็กจะลดความแปรปรวนร่วม เห็นได้ชัดว่าสิ่งนี้ช่วยลด …

4
L1 ถดถอยประมาณค่ามัธยฐานในขณะที่ประมาณการถดถอย L2 หมายถึงอะไร
ดังนั้นฉันจึงถูกถามคำถามที่มาตรการกลาง L1 (เช่น Lasso) และ L2 (เช่นการถดถอยสัน) ประเมิน คำตอบคือ L1 = ค่ามัธยฐานและ L2 = ค่าเฉลี่ย มีเหตุผลแบบนี้หรือไม่? หรือว่าจะต้องมีการกำหนดทางพีชคณิต? ถ้าเป็นเช่นนั้นฉันจะทำยังไงต่อ

1
การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น
ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1L1L_1 ) และ Ridge ( L2L2L_2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ≥1γ≥1\gamma \geq 1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็น∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}{1} นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน …

2
ขีด จำกัด ของ "หน่วยความแปรปรวน" ตัวประมาณการถดถอยของสันเมื่อ
พิจารณาสันถดถอยด้วยข้อ จำกัด เพิ่มเติมที่มีผลรวมของหน่วยสแควร์ส (เทียบเท่าความแปรปรวนของหน่วย); หากจำเป็นเราสามารถสันนิษฐานได้ว่ามีผลรวมของหน่วยกำลังสองเช่นกัน: Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. ขีด จำกัด ของβ^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*เมื่อλ→∞λ→∞\lambda\to\inftyคืออะไร? นี่คือข้อความบางส่วนที่ฉันเชื่อว่าเป็นจริง: เมื่อλ=0λ=0\lambda=0มีวิธีแก้ไขที่ชัดเจน: ใช้ตัวประมาณ OLS β^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yและทำให้เป็นมาตรฐานเพื่อสนองข้อ จำกัด (เราสามารถเห็นสิ่งนี้ได้โดยการเพิ่มตัวคูณและสร้างความแตกต่างของ Lagrange): β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. โดยทั่วไปการแก้ปัญหาคือβ^∗λ=((1+μ)X⊤X+λI)−1X⊤ywith μ needed to satisfy the …

2
ความครอบคลุมช่วงความเชื่อมั่น 'กับการประมาณการปกติ
สมมติว่าฉันพยายามประเมินพารามิเตอร์จำนวนมากจากข้อมูลมิติสูงโดยใช้การประมาณปกติบางประเภท Regularizer แนะนำการตั้งค่าบางอย่างในการประมาณค่า แต่มันก็ยังคงเป็นเรื่องที่ดีเนื่องจากการลดความแปรปรวนควรจะชดเชยให้มากกว่า ปัญหาเกิดขึ้นเมื่อฉันต้องการประเมินช่วงความมั่นใจ (เช่นใช้ Laplace Approve หรือ bootstrapping) โดยเฉพาะอคติในการประมาณการของฉันนำไปสู่การรายงานข่าวที่ไม่ดีในช่วงความเชื่อมั่นของฉันซึ่งทำให้ยากที่จะกำหนดคุณสมบัติของผู้ประเมินของฉัน ฉันพบเอกสารบางส่วนที่พูดถึงปัญหานี้ (เช่น"ช่วงความเชื่อมั่นแบบ Asymptotic ในการถดถอยของสันเขาตามการขยายตัวของ Edgeworth" ) แต่คณิตศาสตร์ส่วนใหญ่อยู่เหนือหัวฉัน ในบทความที่เชื่อมโยงสมการ 92-93 ดูเหมือนจะให้ปัจจัยการแก้ไขสำหรับการประมาณที่ถูกทำให้เป็นมาตรฐานโดยการถดถอยของสันเขา แต่ฉันสงสัยว่ามีกระบวนการที่ดีที่จะทำงานกับช่วงของกฎเกณฑ์ต่าง ๆ ได้หรือไม่ แม้แต่การแก้ไขใบสั่งซื้อครั้งแรกก็มีประโยชน์อย่างยิ่ง

5
เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอY= β0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0β0\beta_0

2
อะไรคือสมมติฐานของการถดถอยสันและวิธีการทดสอบพวกเขา?
พิจารณาตัวแบบมาตรฐานสำหรับการถดถอยหลายจุดโดยที่ε ∼ N ( 0 , σ 2 I n )ดังนั้นความเป็นมาตรฐานความสม่ำเสมอความเป็นหนึ่งเดียวและข้อผิดพลาดที่ไม่เกี่ยวข้องทั้งหมดY=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) สมมติว่าเราทำการถดถอยแบบสันเขาโดยการเพิ่มจำนวนเล็กน้อยลงในองค์ประกอบทั้งหมดของเส้นทแยงมุมของ :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y มีค่าบางอย่างที่ซึ่งค่าสัมประสิทธิ์สันเขามีข้อผิดพลาดยกกำลังสองเฉลี่ยน้อยกว่าผู้ที่ได้รับโดย OLS แม้ว่าβ r ฉันd กรัมอีเป็นประมาณการลำเอียงของβ ในทางปฏิบัติkได้มาจากการตรวจสอบข้ามkkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk นี่คือคำถามของฉัน: อะไรคือสมมติฐานสมมติฐานต้นแบบสันเขา? จะเป็นรูปธรรมมากขึ้น สมมติฐานทั้งหมดของ square อย่างน้อยสามัญ (OLS) ใช้ได้กับการถดถอยของสันเขาหรือไม่? ถ้าใช่ต่อคำถามที่ 1 เราจะทดสอบความเป็นเนื้อเดียวกันและขาดความสัมพันธ์กับค่าประมาณความลำเอียงของอย่างไรββ\beta มีงานทดสอบสมมติฐาน OLS อื่น ๆ (homoscedasticity และการขาดความสัมพันธ์อัตโนมัติ) ภายใต้การถดถอยของสันเขาหรือไม่?

1
การพิสูจน์ค่าสัมประสิทธิ์การหดตัวโดยใช้การถดถอยแบบสันผ่าน“ การสลายตัวของสเปกตรัม”
ฉันเข้าใจว่าการถดถอยของสันเขาลดค่าสัมประสิทธิ์ไปสู่ศูนย์ทางเรขาคณิต ยิ่งไปกว่านั้นฉันรู้วิธีที่จะพิสูจน์ว่าในกรณีพิเศษ "Orthonormal" แต่ฉันสับสนว่ามันทำงานอย่างไรในกรณีทั่วไปผ่าน "การสลายตัวทางสเปกตรัม"

2
การประมาณค่า R-squared และนัยสำคัญทางสถิติจากโมเดลการถดถอยเชิงลงโทษ
ฉันใช้แพ็กเกจ R ที่ถูกลงโทษเพื่อให้ได้ค่าสัมประสิทธิ์การหดตัวสำหรับชุดข้อมูลที่ฉันมีตัวทำนายจำนวนมากและมีความรู้เพียงเล็กน้อยซึ่งเป็นสิ่งที่สำคัญ หลังจากที่ฉันเลือกพารามิเตอร์การปรับแต่ง L1 และ L2 และฉันพอใจกับค่าสัมประสิทธิ์ของฉันจะมีวิธีทางสถิติที่จะสรุปรูปแบบที่เหมาะสมกับ R-squared หรือไม่? นอกจากนี้ฉันสนใจที่จะทดสอบความสำคัญโดยรวมของโมเดล (เช่นR² = 0 หรือทำทั้งหมด = 0) ฉันได้อ่านคำตอบของคำถามที่คล้ายกันแล้วที่นี่แต่ก็ไม่ได้ตอบคำถามของฉัน มีการสอนที่ยอดเยี่ยมเกี่ยวกับแพ็คเกจ R ที่ฉันใช้ที่นี่และผู้เขียน Jelle Goeman มีหมายเหตุต่อไปนี้ในตอนท้ายของบทช่วยสอนเกี่ยวกับช่วงความมั่นใจจากโมเดลการถดถอยที่ถูกลงโทษ: มันเป็นคำถามที่ธรรมดามากที่จะถามถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยหรือปริมาณที่ประมาณไว้อื่น ๆ ในหลักการข้อผิดพลาดมาตรฐานดังกล่าวสามารถคำนวณได้ง่ายเช่นการใช้ bootstrap ยังคงแพคเกจนี้โดยเจตนาไม่ได้ให้พวกเขา เหตุผลของเรื่องนี้คือข้อผิดพลาดมาตรฐานไม่ได้มีความหมายมากสำหรับการประเมินแบบเอนเอียงอย่างรุนแรงเช่นเกิดจากวิธีการประเมินที่ถูกลงโทษ การประมาณค่าแบบลงโทษเป็นกระบวนการที่ช่วยลดความแปรปรวนของตัวประมาณค่าโดยการแนะนำอคติอย่างมีนัยสำคัญ ความเอนเอียงของตัวประมาณแต่ละตัวจึงเป็นองค์ประกอบหลักของความคลาดเคลื่อนกำลังสองเฉลี่ยในขณะที่ความแปรปรวนอาจมีส่วนเพียงเล็กน้อยเท่านั้น แต่น่าเสียดายที่ในการใช้งานส่วนใหญ่ของการถดถอยเชิงลงโทษนั้นเป็นไปไม่ได้ที่จะได้รับการประเมินความลำเอียงที่แม่นยำเพียงพอ การคำนวณตาม bootstrap ใด ๆ สามารถให้การประเมินความแปรปรวนของการประมาณการเท่านั้น การประมาณการที่น่าเชื่อถือของอคตินั้นจะมีให้เฉพาะในกรณีที่การประมาณการที่เป็นกลางไม่น่าเชื่อถือมีอยู่ซึ่งโดยทั่วไปจะไม่เกิดขึ้นในกรณีที่มีการใช้การประมาณการที่ถูกลงโทษ การรายงานข้อผิดพลาดมาตรฐานของการประเมินที่ถูกลงโทษจึงบอกเพียงส่วนหนึ่งของเรื่องราว มันสามารถสร้างความประทับใจที่ผิดพลาดอย่างแม่นยำโดยไม่สนใจความไม่ถูกต้องที่เกิดจากอคติอย่างสมบูรณ์ มันเป็นความผิดพลาดอย่างแน่นอนในการสร้างคำแถลงความเชื่อมั่นซึ่งตั้งอยู่บนพื้นฐานของการประเมินความแปรปรวนของการประมาณการเช่นช่วงความเชื่อมั่นที่ใช้ bootstrap

3
ความสัมพันธ์ระหว่างการถดถอยของสันเขากับการถดถอย PCA
ฉันจำได้ว่ามีการอ่านการเชื่อมต่อระหว่างสันเขา (กับการทำให้เป็นมาตรฐานℓ2ℓ2\ell_2 ) และการถดถอย PCA: ในขณะที่ใช้การถดถอยปกติกับ hyperparameterถ้าแล้วการถดถอยนั้นเทียบเท่ากับการลบ ตัวแปร PC ที่มีค่าลักษณะเฉพาะน้อยที่สุด λ λ →การ0ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 ทำไมเรื่องนี้ถึงเป็นจริง? สิ่งนี้เกี่ยวข้องกับกระบวนการเพิ่มประสิทธิภาพหรือไม่ ฉันจะคาดหวังให้เทียบเท่ากับ OLS อย่างไร้เดียงสา ใครบ้างมีการอ้างอิงสำหรับเรื่องนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.