คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

2
เหตุใดจึงใช้กลุ่มบ่วงบาศแทนสายบ่วง
ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้ เหตุใดจึงเลือกกลุ่มบาศกลุส ทำไมเส้นทางการแก้ปัญหาแบบกลุ่มแบบไม่ต่อเนื่องเป็นเส้นตรง

3
การนำบ่วงบาศแบบไม่ลบไปใช้ใน R
ฉันกำลังมองหาโอเพนซอร์สหรือห้องสมุดที่มีอยู่ที่ฉันสามารถใช้ได้ เท่าที่ฉันบอกแพคเกจ glmnet ไม่สามารถขยายได้อย่างง่ายดายเพื่อครอบคลุมกรณีที่ไม่ใช่เชิงลบ ฉันอาจจะผิดคนที่มีความคิดใด ๆ ชื่นชมมาก โดยไม่เป็นลบฉันหมายความว่าสัมประสิทธิ์ทั้งหมดถูก จำกัด ให้เป็นบวก (> 0)
13 r  lasso 

2
LASSO เลือกตัวทำนายที่สัมพันธ์กันเมื่อใด
ฉันใช้แพ็คเกจ 'lars' ใน R ด้วยรหัสต่อไปนี้: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > …

2
เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO
ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …

1
สัญชาตญาณความเป็นอิสระของลาซโซ
Zou และคณะ "ใน" องศาอิสระ "ของเชือก" (2007) แสดงให้เห็นว่าจำนวนของค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์เป็นค่าประมาณที่เป็นกลางและสม่ำเสมอสำหรับองศาอิสระของเชือก ดูเหมือนว่าฉันจะต่อต้านได้ง่าย สมมติว่าเรามีรูปแบบการถดถอย (โดยที่ตัวแปรมีค่าเฉลี่ยเป็นศูนย์) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. สมมติว่า OLS ไม่ จำกัด ประเมินของเป็นβ O L S = 0.5 มันอาจตรงกับประมาณการ LASSO ที่ประมาณβสำหรับความรุนแรงที่ต่ำมากββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta สมมติต่อไปว่าประมาณการเชือกสำหรับความเข้มโทษโดยเฉพาะอย่างยิ่งเป็นβ L S S O , λ * = 0.4 ตัวอย่างเช่นλ ∗อาจเป็น "ดีที่สุด" λสำหรับชุดข้อมูลที่อยู่ในมือโดยใช้การตรวจสอบข้าม λ∗λ∗\lambda^*β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda หากฉันเข้าใจอย่างถูกต้องทั้งสองกรณีระดับความเป็นอิสระเท่ากับ 1 เนื่องจากทั้งสองครั้งมีค่าสัมประสิทธิ์การถดถอยที่ไม่ใช่ศูนย์ คำถาม: มาได้อย่างไรองศาอิสระในทั้งสองกรณีจะเหมือนกันแม้ว่าβ L S S …

2
การดัดแปลง Lasso สำหรับ LARS
ฉันพยายามเข้าใจว่า Lars สามารถปรับเปลี่ยนอัลกอริทึมเพื่อสร้าง Lasso ได้อย่างไร ในขณะที่ฉันเข้าใจ LARS ฉันไม่สามารถเห็นการดัดแปลง Lasso จากบทความโดย Tibshirani และคณะ โดยเฉพาะฉันไม่เห็นสาเหตุที่สภาพของสัญญาณว่าเครื่องหมายของพิกัดไม่เป็นศูนย์จะต้องเห็นด้วยกับสัญลักษณ์ของสหสัมพันธ์ปัจจุบัน ใครสามารถช่วยฉันด้วยเรื่องนี้ ฉันเดาว่าฉันกำลังมองหาหลักฐานทางคณิตศาสตร์โดยใช้เงื่อนไข KKT กับปัญหาบรรทัดฐาน L-1 ดั้งเดิมเช่น Lasso ขอบคุณมาก!
12 lasso 

2
พิกัดโคตรสำหรับ lasso หรือ elastic net
มีเอกสารหรือหนังสือที่ดีเกี่ยวกับการใช้โคตรประสานงานสำหรับ L1 (lasso) และ / หรือการทำให้เป็นระเบียบสุทธิแบบยืดหยุ่นสำหรับปัญหาการถดถอยเชิงเส้นหรือไม่?

1
การอัพเดตเชือกให้พอดีกับข้อสังเกตใหม่
ฉันเหมาะสมกับการถดถอยเชิงเส้น L1-normalized กับชุดข้อมูลที่มีขนาดใหญ่มาก (ที่มี n >> p.) ตัวแปรเป็นที่รู้จักล่วงหน้า แต่การสังเกตการณ์มาถึงกลุ่มเล็ก ๆ ฉันต้องการที่จะรักษาเชือกที่พอดีหลังจากแต่ละก้อน เห็นได้ชัดว่าฉันสามารถปรับโมเดลทั้งหมดได้อีกครั้งหลังจากเห็นการสังเกตชุดใหม่แต่ละชุด อย่างไรก็ตามสิ่งนี้จะไม่มีประสิทธิภาพพอสมควรเนื่องจากมีข้อมูลจำนวนมาก จำนวนข้อมูลใหม่ที่มาถึงในแต่ละขั้นตอนมีขนาดเล็กมากและความพอดีไม่น่าจะเปลี่ยนแปลงระหว่างขั้นตอนมากนัก มีอะไรที่ฉันสามารถทำได้เพื่อลดภาระการคำนวณโดยรวมหรือไม่? ฉันกำลังดูอัลกอริทึม LARS ของ Efron et al. แต่ยินดีที่จะพิจารณาวิธีการติดตั้งแบบอื่น ๆ ถ้ามันสามารถทำให้ "warm-start" ตามที่อธิบายไว้ข้างต้น หมายเหตุ: ฉันกำลังมองหาอัลกอริทึมเป็นหลัก แต่ตัวชี้ไปยังชุดซอฟต์แวร์ที่มีอยู่ซึ่งสามารถทำได้สิ่งนี้อาจพิสูจน์ได้ด้วย นอกเหนือจากวิถีบ่วงบาศปัจจุบันอัลกอริธึมก็แน่นอนยินดีที่จะรักษาสถานะอื่น แบรดลีย์เอฟรอน, เทรเวอร์ Hastie เลน Johnstone และโรเบิร์ตทิบชิรา นี , น้อยมุมถดถอย , พงศาวดารของสถิติ (ด้วยการอภิปราย) (2004) 32 (2), 407--499
12 regression  lasso 

4
วิธีการใช้วิธีกำลังสองน้อยที่สุด (IRLS) ที่ได้รับผลตอบแทนซ้ำกับโมเดล LASSO อย่างไร
ฉันมีโปรแกรมถดถอยโลจิสติกโดยใช้อัลกอริทึม IRLS ฉันต้องการใช้การลงโทษ LASSOเพื่อเลือกคุณสมบัติที่ถูกต้องโดยอัตโนมัติ ในการวนซ้ำแต่ละครั้งจะมีการแก้ไขดังต่อไปนี้: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} ให้เป็นจำนวนจริงที่ไม่ลบ ฉันไม่ได้ทำการลงโทษดักตามที่แนะนำในองค์ประกอบของ การเรียนรู้ทางสถิติ เหมือนกันสำหรับสัมประสิทธิ์เป็นศูนย์อยู่แล้ว มิฉะนั้นฉันจะลบคำหนึ่งออกจากด้านขวา:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับการปรับเปลี่ยนอัลกอริทึม IRLS มันเป็นวิธีที่ถูกต้องหรือไม่ แก้ไข: แม้ว่าฉันไม่มั่นใจเกี่ยวกับเรื่องนี้ แต่นี่เป็นหนึ่งในวิธีแก้ปัญหาที่ฉันได้รับในที่สุด สิ่งที่น่าสนใจคือโซลูชันนี้สอดคล้องกับสิ่งที่ฉันเข้าใจเกี่ยวกับ LASSO ในขณะนี้ แน่นอนว่ามีสองขั้นตอนในการทำซ้ำแต่ละครั้งแทนที่จะเป็นเพียงขั้นตอนเดียว: ขั้นตอนแรกเหมือนกับเมื่อก่อน: เราทำการวนซ้ำของอัลกอริทึม (ราวกับว่าในสูตรสำหรับการไล่ระดับสีด้านบน)λ=0λ=0\lambda=0 ขั้นตอนที่สองคือขั้นตอนใหม่: เราใช้ซอฟต์ในแต่ละองค์ประกอบ (ยกเว้น componentซึ่งสอดคล้องกับการสกัดกั้น) ของ vectorได้รับในขั้นตอนแรก นี้เรียกว่าซ้ำอ่อน Thresholding อัลกอริทึมβ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)

2
แสดงความเท่าเทียมกันระหว่างบรรทัดฐานการถดถอยปกติและบรรทัดฐานการถดถอยแบบ จำกัด การใช้ KKT
ตามที่อ้างอิงเล่ม 1 , เล่ม 2และกระดาษ มีการกล่าวถึงว่ามีความเท่าเทียมกันระหว่างการถดถอยแบบปกติ (Ridge, LASSO และ Elastic Net) และสูตรข้อ จำกัด ฉันยังดูCross Validated 1และCross Validated 2แต่ฉันไม่สามารถเห็นคำตอบที่ชัดเจนแสดงให้เห็นว่าการเทียบเท่าหรือตรรกะ คำถามของฉันคือ จะแสดงความเท่าเทียมกันอย่างไรโดยใช้ Karush – Kuhn – Tucker (KKT) สูตรต่อไปนี้ใช้สำหรับการถดถอยแบบริดจ์ บันทึก คำถามนี้ไม่ใช่การบ้าน มันเป็นเพียงเพื่อเพิ่มความเข้าใจของฉันในหัวข้อนี้ UPDATE ฉันยังไม่มีความคิด

1
ทำไม R Squared จึงไม่ใช่มาตรการที่ดีสำหรับการถดถอยที่เหมาะสมเมื่อใช้ LASSO
ฉันได้อ่านในหลาย ๆ ที่ว่า R Squared ไม่ใช่วิธีที่เหมาะสมที่สุดเมื่อแบบจำลองนั้นเหมาะสมกับ LASSO แต่ฉันไม่ชัดเจนเกี่ยวกับว่าทำไมที่เป็น นอกจากนี้คุณสามารถแนะนำทางเลือกที่ดีที่สุดได้หรือไม่

4
อะไรทำให้บ่วงบาศไม่เสถียรสำหรับการเลือกคุณสมบัติ?
ในการตรวจจับแบบบีบอัดมีทฤษฎีบทรับประกันได้ว่า มีวิธีแก้ปัญหากระจัดกระจายc (ดูภาคผนวกสำหรับรายละเอียดเพิ่มเติม)cargmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc มีทฤษฎีบทที่คล้ายกันสำหรับบ่วงบาศหรือไม่? หากมีทฤษฎีบทดังกล่าวไม่เพียง แต่จะรับประกันความมั่นคงของบาศกัมมันตภาพรังสีเท่านั้น แต่มันยังให้การตีความที่มีความหมายมากขึ้นด้วย เชือกสามารถค้นพบเบาบางค่าสัมประสิทธิ์การถดถอยเวกเตอร์cccที่ใช้ในการสร้างการตอบสนองyyyโดยy=Xcy=Xcy = XcXc มีสองเหตุผลที่ฉันถามคำถามนี้: ฉันคิดว่า 'lasso เป็นคำตอบที่กระจัดกระจาย' ไม่ใช่คำตอบว่าทำไมใช้ lasso เพื่อเลือกคุณลักษณะเนื่องจากเราไม่สามารถบอกได้ว่าข้อดีของคุณสมบัติที่เราเลือกคืออะไร ฉันเรียนรู้ Lasso ที่มีชื่อเสียงในเรื่องความไม่แน่นอนในการเลือกคุณสมบัติ ในทางปฏิบัติเราต้องรันตัวอย่างบูตสแตรปเพื่อประเมินความเสถียร อะไรคือเหตุผลที่สำคัญที่สุดที่ทำให้เกิดความไม่แน่นอนนี้ ภาคผนวก: ได้รับXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)x_M) cccคือΩΩ\Omega -sparse vector ( Ω⩽MΩ⩽M\Omega \leqslant …

1
การตีความค่าสัมประสิทธิ์การถดถอย LASSO
ขณะนี้ฉันกำลังทำงานเพื่อสร้างแบบจำลองการทำนายผลเลขฐานสองบนชุดข้อมูลที่มีตัวแปร ~ 300 และ 800 ข้อสังเกต ฉันได้อ่านมากเกี่ยวกับปัญหาที่เกี่ยวข้องกับการถดถอยแบบขั้นตอนและทำไมไม่ใช้มัน ฉันอ่านเกี่ยวกับการถดถอยของ LASSO และความสามารถในการเลือกคุณสมบัติและประสบความสำเร็จในการนำไปใช้งานด้วยการใช้แพ็คเกจ "caret" และ "glmnet" ฉันสามารถดึงค่าสัมประสิทธิ์ของแบบจำลองด้วยค่าที่ดีที่สุดlambdaและalphaจาก "caret"; อย่างไรก็ตามฉันไม่คุ้นเคยกับวิธีตีความค่าสัมประสิทธิ์ สัมประสิทธิ์ LASSO ตีความในวิธีเดียวกันกับการถดถอยโลจิสติกหรือไม่? มันจะเหมาะสมที่จะใช้คุณสมบัติที่เลือกจาก LASSO ในการถดถอยโลจิสติก? แก้ไข การตีความของค่าสัมประสิทธิ์เช่นเดียวกับค่าสัมประสิทธิ์แทนจากการถดถอย LASSO เป็นอัตราต่อรองสำหรับการเปลี่ยนแปลง 1 หน่วยในสัมประสิทธิ์ในขณะที่ค่าคงที่สัมประสิทธิ์อื่น ๆ ทั้งหมด https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

1
การเลือกช่วงและความหนาแน่นของกริดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานใน LASSO
ฉันกำลังศึกษาLASSO (อย่างน้อยการหดตัวแบบสัมบูรณ์และผู้ดำเนินการคัดเลือก) ในเวลาเดียวกัน ฉันเห็นว่าค่าที่ดีที่สุดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานสามารถเลือกได้โดยการตรวจสอบความถูกต้องข้าม ฉันเห็นด้วยในการถดถอยของสันเขาและวิธีการมากมายที่ใช้การทำให้เป็นมาตรฐานเราสามารถใช้ CV เพื่อค้นหาพารามิเตอร์การทำให้เป็นมาตรฐานที่ดีที่สุด (การลงโทษ) ตอนนี้คำถามของฉันเกี่ยวกับค่าเริ่มต้นสำหรับขอบเขตบนและล่างของพารามิเตอร์และวิธีการกำหนดความยาวของลำดับ จะเฉพาะเจาะจงเช่นสมมติเรามีปัญหา Lasso และเราต้องการที่จะหาค่าที่ดีที่สุดสำหรับการลงโทษ\แล้วเราจะเลือกขอบเขตล่างและบนสำหรับอย่างไร และมีค่าเท่าไรที่แยกระหว่างสองค่า ? λ λ ∈ [ = ? , b = ? ] ( b - a )L o กรัมLฉันk อีลิตรฉันชั่วโมงo o d= ( y- x β)'( y- x β) + λ ∑ | β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.