คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

3
จะประมาณค่าพารามิเตอร์การหดตัวใน Lasso หรือการถดถอยสันด้วยตัวแปร> 50K ได้อย่างไร?
ฉันต้องการใช้ Lasso หรือการถดถอยสันสำหรับโมเดลที่มีตัวแปรมากกว่า 50,000 ตัว ฉันต้องการทำเช่นนั้นโดยใช้แพคเกจซอฟต์แวร์ในอาร์ฉันสามารถประมาณการพารามิเตอร์การหดตัว ( )?λλ\lambda การแก้ไข: นี่คือจุดที่ฉันตื่นขึ้นมา: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) คำถามของฉันคือ: …

2
หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?
ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

2
การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (
การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น

1
การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?
ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

4
สัน, เชือกและยางยืด
วิธีเปรียบเทียบมาตรฐานของสันเขา LASSO และ elasticnet ทำอย่างไร? อะไรคือข้อดีและข้อเสียของพวกเขา? เอกสารทางเทคนิคที่ดีหรือบันทึกการบรรยายจะได้รับการชื่นชมเช่นกัน

3
เป็นไปได้หรือไม่ที่จะคำนวณ AIC และ BIC สำหรับแบบจำลองการถดถอยแบบ lasso?
เป็นไปได้หรือไม่ที่จะคำนวณค่า AIC หรือ BIC สำหรับตัวแบบการถดถอยแบบบ่วงบาศและตัวแบบที่ทำให้เป็นมาตรฐานอื่นที่พารามิเตอร์จะเข้าสู่สมการเพียงบางส่วนเท่านั้น เรากำหนดระดับของเสรีภาพได้อย่างไร ฉันใช้ R เพื่อให้พอดีกับแบบจำลองการถดถอยแบบ lasso กับglmnet()ฟังก์ชันจากglmnetแพ็คเกจและฉันต้องการทราบวิธีคำนวณค่า AIC และ BIC สำหรับแบบจำลอง ด้วยวิธีนี้ฉันอาจเปรียบเทียบค่ากับแบบจำลองที่พอดีโดยไม่มีการทำให้เป็นมาตรฐาน เป็นไปได้ที่จะทำ?
31 r  model-selection  lasso  aic  bic 

2
การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่
หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์ จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

3
ไม่ว่าจะ rescale ตัวบ่งชี้ / ไบนารี / ตัวจำลองการคาดการณ์สำหรับ LASSO
สำหรับ LASSO (และขั้นตอนการเลือกรุ่นอื่น ๆ ) มันเป็นสิ่งสำคัญที่จะช่วยลดการคาดการณ์ ทั่วไป คำแนะนำของ ผมต่อไปนี้เป็นเพียงการใช้ 0 เฉลี่ย 1 การฟื้นฟูส่วนเบี่ยงเบนมาตรฐานของตัวแปรอย่างต่อเนื่อง แต่จะทำอย่างไรกับหุ่น? เช่นบางตัวอย่างที่นำมาใช้จากโรงเรียนภาคฤดูร้อน (ยอดเยี่ยม) เดียวกันฉันเชื่อมโยงกับ rescales ตัวแปรต่อเนื่องให้อยู่ระหว่าง 0 และ 1 (ไม่ดีกับค่าผิดปกติแม้ว่า) อาจเทียบได้กับหุ่น แต่ถึงอย่างนั้นก็ไม่ได้รับประกันว่าสัมประสิทธิ์ควรจะมีขนาดเท่ากันและทำให้ถูกลงโทษในทำนองเดียวกันเหตุผลสำคัญสำหรับการช่วยชีวิตไม่ใช่?

2
การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)
ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

1
เหตุใดฉันจึงได้รับโซลูชัน lasso แบบปิดไม่ถูกต้อง
ปัญหา lassoมีรูปแบบการปิด: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + ถ้าXมีคอลัมน์แบบออโธเทนเน็ต นี่ก็แสดงให้เห็นในกระทู้นี้: ที่มาของรูปแบบปิดวิธีการแก้เชือกβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมไม่มีโซลูชันแบบปิดโดยทั่วไป ใช้ subifferentials …

2
มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?
ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?
ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBBBBBiBiB_i ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

3
เหตุใดจึงใช้การประมาณแบบ Lasso ในการประมาณ OLS กับชุดย่อยของตัวแปรแบบ Lasso
k βลิตรs s o = ( β ลิตรs s o 1 , β ลิตรs s o 2 , . . . , β ลิตรL(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) เรารู้ว่าเป็น การประเมินแบบเอนเอียงดังนั้นทำไมเรายังคงใช้เป็นทางออกสุดท้ายแทนที่จะเป็น 'สมเหตุสมผล' มากขึ้น\ hat {\ beta} ^ {new} = \ left (\ hat {\ beta} _ {1: k} ^ {ใหม่}, 0, ... , 0 \ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.