คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

1
การถดถอยเชิงเส้นหลายตัวแปรด้วยเชือกใน r
ฉันพยายามสร้างแบบจำลองที่ลดลงเพื่อทำนายตัวแปรตามจำนวนมาก (DV) (~ 450) ที่มีความสัมพันธ์สูง ตัวแปรอิสระของฉัน (IV) ก็มีมากมาย (~ 2000) และมีความสัมพันธ์สูง หากฉันใช้ Lasso เพื่อเลือกรูปแบบการลดลงสำหรับแต่ละเอาต์พุตแยกกันฉันไม่รับประกันว่าจะได้รับชุดย่อยของตัวแปรอิสระแบบเดียวกับที่ฉันวนลูปมากกว่าตัวแปรตามแต่ละตัว มีการถดถอยเชิงเส้นหลายตัวแปรที่ใช้เชือกใน R หรือไม่? นี่ไม่ใช่กลุ่มบ่วงบาศ กลุ่ม lasso กลุ่ม IV ฉันต้องการการถดถอยเชิงเส้นหลายตัวแปร (หมายถึง DV เป็นเมทริกซ์ไม่ใช่เวกเตอร์สเกลาร์) ที่ใช้บ่วงบาศ (หมายเหตุ: ตาม NRH ชี้ว่าสิ่งนี้ไม่เป็นความจริงกลุ่ม lasso เป็นคำทั่วไปที่มีกลยุทธ์ที่จัดกลุ่ม IV แต่รวมถึงกลยุทธ์ที่จัดกลุ่มพารามิเตอร์อื่น ๆ เช่น DV) ฉันพบบทความนี้ที่กลายเป็นสิ่งที่เรียกว่าSparse Overlapping Sets Lasso นี่คือรหัสบางอย่างที่ทำให้การถดถอยเชิงเส้นหลายตัวแปร > dim(target) [1] 6060 441 > dim(dictionary) …

1
ทำไมสืบเชื้อสายการไล่ระดับสีใกล้เคียงแทนวิธีการ subgradient ธรรมดาสำหรับ Lasso?
ฉันคิดที่จะแก้ Lasso ผ่านวิธีการ subgradient วานิลลา แต่ฉันได้อ่านคนที่แนะนำให้ใช้การไล่ระดับสีแบบ Proximal บางคนสามารถเน้นว่าทำไม GD GD ใกล้เคียงแทนที่จะใช้วิธีการ subgradient วานิลลาสำหรับ Lasso?

1
LASSO สำหรับรุ่นอธิบาย: พารามิเตอร์ที่หดตัวหรือไม่?
ฉันกำลังทำการวิเคราะห์ที่เป้าหมายหลักคือการเข้าใจข้อมูล ชุดข้อมูลมีขนาดใหญ่พอสำหรับการตรวจสอบข้าม (10k) และตัวทำนายรวมทั้งตัวแปรต่อเนื่องและดัมมี่และผลลัพธ์นั้นต่อเนื่อง เป้าหมายหลักคือการดูว่าเหมาะสมหรือไม่ที่จะใช้ตัวทำนายบางตัวเพื่อให้แบบจำลองตีความได้ง่ายขึ้น คำถาม: คำถามของฉันคือ "ซึ่ง vars อธิบายผลลัพธ์และเป็นส่วน 'แข็งแรงพอ' ของคำอธิบายนั้น" แต่หากต้องการเลือกพารามิเตอร์ lambda สำหรับ lasso คุณต้องใช้การตรวจสอบความถูกต้องข้ามเช่นความถูกต้องเชิงทำนายเป็นเกณฑ์ เมื่อทำการอนุมานความถูกต้องตามการคาดการณ์เป็นพร็อกซีที่ดีพอสำหรับคำถามทั่วไปที่ฉันถามหรือไม่ สมมติว่า LASSO เก็บเครื่องมือทำนาย 3 ตัวจาก 8 ตัว และตอนนี้ฉันถามตัวเองว่า: "สิ่งเหล่านี้มีผลต่อผลลัพธ์อย่างไร" ตัวอย่างเช่นฉันพบความแตกต่างทางเพศ หลังการหดตัวของบ่วงบาศค่าสัมประสิทธิ์บ่งชี้ว่าผู้หญิงให้คะแนนสูงกว่าผู้ชาย 1 คะแนน แต่ไม่มีการหดตัว (เช่นบนชุดข้อมูลจริง) พวกเขาได้คะแนน 2.5 คะแนนสูงขึ้น ฉันจะเลือกอันไหนเป็นเอฟเฟกต์เพศ "ของจริง" ของฉัน ไปโดยความถูกต้องทำนายก็จะเป็นค่าสัมประสิทธิ์หด หรือในบริบทบอกว่าฉันเขียนรายงานสำหรับคนที่ไม่รอบรู้ในสถิติ ฉันจะรายงานค่าสัมประสิทธิ์ใดให้พวกเขาบ้าง

1
จะตีความตัวแปรที่ถูกแยกออกจากหรือรวมอยู่ในรูปแบบ lasso ได้อย่างไร?
ฉันได้รับจากการโพสต์อื่น ๆ ว่าไม่มีความสำคัญ 'ความสำคัญ' หรือ 'ความสำคัญ' เพื่อทำนายตัวแปรที่เข้าสู่แบบจำลองเชือกเนื่องจากการคำนวณค่า p หรือค่าเบี่ยงเบนมาตรฐานของตัวแปรเหล่านั้นยังคงทำงานอยู่ ภายใต้การใช้เหตุผลนั้นถูกต้องหรือไม่ที่จะยืนยันว่าไม่สามารถพูดได้ว่าตัวแปรที่ถูกแยกออกจากตัวแบบเชือกเป็น 'ไม่เกี่ยวข้อง' หรือ 'ไม่สำคัญ'? ถ้าเป็นเช่นนั้นฉันสามารถเรียกร้องอะไรได้บ้างเกี่ยวกับตัวแปรที่ถูกแยกออกหรือรวมไว้ในแบบจำลองเชือก ในกรณีเฉพาะของฉันฉันเลือกแลมบ์ดาพารามิเตอร์การปรับแต่งโดยทำซ้ำการตรวจสอบความถูกต้องข้าม 10 เท่า 100 ครั้งเพื่อลด randonmess และเฉลี่ยโค้งข้อผิดพลาด UPDATE1: ฉันได้ทำตามคำแนะนำด้านล่างและเรียกใช้ lasso อีกครั้งโดยใช้ตัวอย่าง bootstrap ฉันได้ไปกับตัวอย่าง 100 รายการ (จำนวนนั้นเป็นสิ่งที่พลังคอมพิวเตอร์ของฉันสามารถจัดการข้ามคืนได้) และรูปแบบบางอย่างก็ปรากฏ 2 ใน 41 ตัวแปรของฉันเข้าสู่โมเดลมากกว่า 95% ของเวลา, 3 ตัวแปรมากกว่า 90% และ 5 ตัวแปรมากกว่า 85% ตัวแปร 5 ตัวนั้นเป็นหนึ่งใน 9 ที่เข้าสู่แบบจำลองเมื่อฉันรันด้วยตัวอย่างดั้งเดิมและเป็นตัวแปรที่มีค่าสัมประสิทธิ์สูงสุดแล้ว หากฉันใช้บ่วงบาศพร้อมกับตัวอย่าง …

1
การเชื่อมต่อระหว่างสูตร Lasso
คำถามนี้อาจเป็นใบ้ แต่ฉันสังเกตเห็นว่ามีสองสูตรที่แตกต่างกันของการถดถอยLasso เรารู้ว่าปัญหาLassoนั้นเพื่อลดวัตถุประสงค์ที่ประกอบด้วยการสูญเสียกำลังสองบวกกับLLL-1 โทษระยะแสดงดังนี้ minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1 \min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \; แต่บ่อยครั้งที่ฉันเห็นตัวประมาณค่า Lasso สามารถเขียนเป็น β^n(λ)=argminβ{12n∥y−Xβ∥22+λ∥β∥1}β^n(λ)=arg⁡minβ{12n‖y−Xβ‖22+λ‖β‖1} \hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \} คำถามของฉันคือเทียบเท่าหรือไม่ คำว่า12n12n\frac {1}{2n}มาจากไหน การเชื่อมต่อระหว่างสองสูตรนี้ไม่ชัดเจนสำหรับฉัน [อัพเดท]ฉันเดาคำถามที่อับเรตที่ฉันควรถามคือ ทำไมถึงมีสูตรที่สอง? อะไรคือข้อได้เปรียบทางทฤษฎีหรือการคำนวณของการกำหนดปัญหาด้วยวิธีการที่?
9 lasso 

1
glmnet จัดการกับการกระจายเกินขนาดได้อย่างไร
ฉันมีคำถามเกี่ยวกับวิธีจำลองข้อความเหนือข้อมูลการนับโดยเฉพาะฉันจะใช้lassoเทคนิคเพื่อลดคุณลักษณะได้อย่างไร สมมติว่าฉันมีบทความออนไลน์ N รายการและจำนวนการเปิดดูหน้าเว็บสำหรับแต่ละบทความ ฉันได้สกัด 1 กรัมและ 2 กรัมสำหรับแต่ละบทความแล้วและฉันต้องการเรียกใช้การถดถอยมากกว่า 1,2- กรัม เนื่องจากฟีเจอร์ (1,2-grams) นั้นมากกว่าวิธีการสังเกตจำนวนมาก Lasso จึงเป็นวิธีที่ดีในการลดจำนวนฟีเจอร์ นอกจากนี้ฉันพบว่าglmnetมันมีประโยชน์จริงๆในการรันการวิเคราะห์บ่วงบาศ อย่างไรก็ตามจำนวนการเปิดดูหน้าเว็บนั้นมีจำนวนมากเกินไป (แปรปรวน> หมายถึง) แต่glmnetไม่มีการเสนอquasipoisson(อย่างชัดเจน) หรือnegative binomialแต่poissonสำหรับการนับข้อมูล วิธีการแก้ปัญหาที่ฉันคิดคือlog transformการนับข้อมูล (วิธีที่ใช้กันทั่วไปในหมู่นักสังคมศาสตร์) และทำให้ตัวแปรตอบสนองคร่าว ๆ ตามการแจกแจงปกติ glmnetเป็นเช่นนี้ผมอาจจะรูปแบบข้อมูลกับครอบครัวของเกาส์โดยใช้ ดังนั้นคำถามของฉันคือ: เหมาะสมหรือไม่ หรือฉันจะใช้ปัวซองglmnetในกรณีglmnetด้ามจับquasipoisson? หรือมีแพ็คเกจ R อื่น ๆ จัดการกับสถานการณ์นี้หรือไม่? ขอบคุณมาก!

3
การเลือก k knots ในการถดถอยเส้นโค้งที่ราบเรียบเทียบเท่ากับตัวแปรเด็ดขาด k?
ฉันกำลังทำงานกับแบบจำลองการคาดการณ์ที่อายุของผู้ป่วย (จำนวนเต็มวัดเป็นปี) เป็นหนึ่งในตัวแปรตัวทำนาย ความสัมพันธ์แบบไม่เชิงเส้นที่แข็งแกร่งระหว่างอายุและความเสี่ยงของการเข้าพักในโรงพยาบาลจะเห็นได้ชัด: ฉันกำลังพิจารณาว่าการทำให้เส้นโค้งการถดถอยเป็นไปอย่างราบรื่นสำหรับผู้ป่วยอายุ ตามองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie et al, 2009, p.151) ตำแหน่งปมที่ดีที่สุดคือหนึ่งปมต่อค่าที่ไม่ซ้ำกันของอายุสมาชิก ระบุว่าฉันรักษาอายุเป็นจำนวนเต็มเป็น spline ปรับลงโทษให้เรียบเพื่อเรียกใช้สันเขาถดถอยหรือ lasso กับ 101 ตัวบ่งชี้ตัวแปรอายุที่แตกต่างกันหนึ่งค่าต่ออายุพบในชุดข้อมูล (ลบหนึ่งสำหรับการอ้างอิง)? การหลีกเลี่ยงค่าพารามิเตอร์มากเกินไปนั้นจะถูกหลีกเลี่ยงเนื่องจากค่าสัมประสิทธิ์ของตัวบ่งชี้อายุแต่ละตัวนั้นหดตัวลงไปเป็นศูนย์

4
Lasso-ing คำสั่งของความล่าช้าหรือไม่?
สมมติว่าฉันมีข้อมูลตามยาวของรูปแบบ (ฉันมีการสังเกตหลายอย่างนี่เป็นเพียงรูปแบบหนึ่งเดียว) ฉันสนใจในข้อ จำกัด ในการ\ไม่ จำกัดเทียบเท่ากับการ กับsigma_j)Y =(Y1, … ,YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) โดยทั่วไปจะไม่ทำเช่นนี้เนื่องจากต้องมีการประมาณค่าพารามิเตอร์ความแปรปรวนแบบจำลองคือ "lag- " ถ้าเราใช้ นั่นคือเราใช้ก่อนหน้านี้คำศัพท์ในการทำนายจากประวัติO(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, …

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.