คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

1
การแปลงแปลงการติดตามตัวแปร LASSO
ฉันยังใหม่กับglmnetแพ็คเกจและฉันก็ยังไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ใครช่วยกรุณาอ่านพล็อตการติดตามต่อไปนี้ได้ไหม กราฟได้มาจากการรันสิ่งต่อไปนี้: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

2
LASSO / LARS เทียบกับวิธีทั่วไป (GETS)
ฉันสงสัยว่าทำไมการเลือกรูปแบบ LASSO และ LARS ถึงได้รับความนิยมถึงแม้ว่าพวกเขาจะเป็นเพียงรูปแบบของการเลือกไปข้างหน้าอย่างชาญฉลาด (และทำให้ต้องพึ่งพาเส้นทาง) ในทำนองเดียวกันทำไม General to Specific (GETT) จึงมีวิธีการในการเลือกรูปแบบเป็นส่วนใหญ่ถึงแม้ว่าพวกเขาจะทำได้ดีกว่า LARS / LASSO เพราะพวกเขาไม่ประสบปัญหาการถดถอยขั้นตอนที่ชาญฉลาด? (การอ้างอิงพื้นฐานสำหรับ GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - อัลกอริทึมใหม่ในการเริ่มต้นนี้ด้วยการค้นหาแบบกว้างและแผนผังที่หลีกเลี่ยงการพึ่งพาพา ธ และแสดงให้เห็นถึง มักจะทำได้ดีกว่า LASSO / LARS) ดูเหมือนแปลก ๆ LARS / LASSO ดูเหมือนจะได้รับการเปิดเผยและการอ้างอิงมากกว่า General to Specific (GET) ทุกคนมีความคิดอะไรบ้าง? ไม่พยายามเริ่มการถกเถียงอย่างจริงจังมองหาคำอธิบายที่สมเหตุสมผลว่าทำไมวรรณกรรมดูเหมือนจะให้ความสำคัญกับ LASSO / LARS มากกว่า GET และมีคนเพียงไม่กี่คนที่ชี้ให้เห็นถึงข้อบกพร่องของ LASSO / LARS

4
การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน
ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

4
การเลือกลงโทษที่เหมาะสมที่สุดสำหรับบ่วงบาศ
มีผลการวิเคราะห์หรือเอกสารทดลองใด ๆ เกี่ยวกับตัวเลือกที่ดีที่สุดของสัมประสิทธิ์ของระยะเวลาการลงโทษตามความเหมาะสมฉันหมายถึงพารามิเตอร์ที่เพิ่มความน่าจะเป็นในการเลือกแบบจำลองที่ดีที่สุดหรือลดความสูญเสียที่คาดหวังให้น้อยที่สุด ฉันถามเพราะบ่อยครั้งที่มันเป็นไปไม่ได้ที่จะเลือกพารามิเตอร์โดยการตรวจสอบข้ามหรือ bootstrap เพราะทั้งสองกรณีมีปัญหาเป็นจำนวนมากหรือเนื่องจากขนาดของปัญหาในมือ เพียงผลบวกฉันรู้คือ Candes และวางแผนการคัดเลือกตัวแบบใกล้เหมาะโดยℓ 1ลดℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

1
การถดถอยโลจิสติก glmnet สามารถจัดการตัวแปรตัวประกอบ (หมวดหมู่) ได้โดยตรงโดยไม่ต้องใช้ตัวแปรจำลองหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังสร้างการถดถอยโลจิสติกใน R โดยใช้วิธี LASSO ด้วยฟังก์ชั่นcv.glmnetสำหรับการเลือกlambdaและglmnetสำหรับรุ่นสุดท้าย ฉันรู้ข้อเสียทั้งหมดเกี่ยวกับการเลือกรุ่นอัตโนมัติแล้ว แต่ฉันต้องทำต่อไป ปัญหาของฉันคือฉันต้องรวมตัวแปรปัจจัย (หมวดหมู่) ในแบบจำลองมีวิธีใดที่จะทำได้โดยไม่ต้องสร้างตัวแปรจำลองจำนวนมากหรือไม่ ตัวแปรนี้เกือบทุกสายและไม่ใช่ตัวเลข

1
ที่เล็กที่สุดคืออะไร
กำหนดประมาณการ lassoที่i ^ {th}แถวx_i \ in \ mathbb {R} ^ pของเมทริกซ์การออกแบบX \ in \ mathbb {R} ^ {n \ times p}เป็นเวกเตอร์ ของ covariates สำหรับการอธิบายการตอบสนองแบบสุ่มy_i (สำหรับi = 1, \ dot n )β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots …

1
ใช้ LASSO บนฟอเรสต์แบบสุ่ม
ฉันต้องการสร้างฟอเรสต์แบบสุ่มโดยใช้กระบวนการต่อไปนี้: สร้างแผนภูมิบนตัวอย่างสุ่มของข้อมูลและคุณลักษณะโดยใช้การรับข้อมูลเพื่อกำหนดแยก ยุติโหนดลีฟหากมันเกินความลึกที่กำหนดไว้ล่วงหน้าหรือการแยกใด ๆ จะส่งผลให้การนับใบไม้น้อยกว่าค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แทนที่จะกำหนดเลเบลคลาสสำหรับแต่ละแผนผังกำหนดสัดส่วนของคลาสในโหนดลีฟ หยุดการสร้างต้นไม้หลังจากสร้างหมายเลขที่กำหนดไว้ล่วงหน้าแล้ว สิ่งนี้ทำให้กระบวนการป่าสุ่มแบบดั้งเดิมมีสองวิธี หนึ่งจะใช้ต้นไม้ที่ถูกตัดแต่งที่กำหนดสัดส่วนมากกว่าฉลากชั้น และสองเกณฑ์หยุดคือจำนวนต้นไม้ที่กำหนดไว้ล่วงหน้าแทนที่จะเป็นค่าประมาณข้อผิดพลาดบางส่วน คำถามของฉันคือ: สำหรับกระบวนการข้างต้นที่ส่งออกต้นไม้ N แล้วฉันสามารถใส่แบบจำลองโดยใช้การถดถอยโลจิสติกพร้อมการเลือก LASSO ได้หรือไม่? ใครบ้างมีประสบการณ์ที่เหมาะสมกับตัวจําแนกฟอเรสต์แบบสุ่มและการประมวลผลหลังด้วย LASSO โลจิสติกส์หรือไม่? เฟรมเวิร์ก ISLE กล่าวถึงการใช้ LASSO เป็นขั้นตอนหลังการประมวลผลสำหรับปัญหาการถดถอย แต่ไม่ใช่ปัญหาการจำแนกประเภท นอกจากนี้ฉันไม่ได้รับผลลัพธ์ที่เป็นประโยชน์เมื่อ googling "Random forest lasso"

2
AIC, BIC และ GCV: อะไรที่ดีที่สุดสำหรับการตัดสินใจในวิธีการลงโทษที่ถูกลงโทษ?
ความเข้าใจทั่วไปของฉันคือAICเกี่ยวข้องกับการแลกเปลี่ยนระหว่างความดีงามของแบบและความซับซ้อนของแบบจำลอง A Iค= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = จำนวนพารามิเตอร์ในโมเดล LLL = ความเป็นไปได้ เกณฑ์ข้อมูล Bayesian BICนั้นเกี่ยวข้องกับ AIC อย่างมาก AIC จะลงโทษจำนวนพารามิเตอร์ที่น้อยกว่า BIC ฉันเห็นว่ามีการใช้สองสิ่งนี้ทุกที่ในอดีต แต่การตรวจสอบข้ามโดยทั่วไป (GCV) นั้นใหม่สำหรับฉัน GCV เกี่ยวข้องกับ BIC หรือ AIC ได้อย่างไร วิธีการเหล่านี้ใช้ร่วมกันหรือแยกออกจากกันในการเลือกระยะเวลาการลงโทษในการถดถอยแบบแผงเหมือนสัน? แก้ไข: นี่เป็นตัวอย่างการคิดและอภิปราย: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = …


1
การถดถอยโลจิสติกแบบเบย์ปกติใน JAGS
มีเอกสารทางคณิตศาสตร์มากมายที่อธิบาย Bayesian Lasso แต่ฉันต้องการทดสอบและแก้ไขรหัส JAGS ที่ฉันสามารถใช้ได้ ใครบางคนสามารถโพสต์ตัวอย่างรหัส BUGS / JAGS ที่ใช้การถดถอยโลจิสติกปกติ? รูปแบบใด ๆ (L1, L2, Elasticnet) จะดี แต่ Lasso เป็นที่ต้องการ ฉันยังสงสัยว่ามีกลยุทธ์การใช้งานทางเลือกที่น่าสนใจหรือไม่

2
ทำไมการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเชือก
ฉันกำลังอ่านเกี่ยวกับการเลือกชุดย่อยที่ดีที่สุดในองค์ประกอบของหนังสือการเรียนรู้ทางสถิติ ถ้าฉันมีตัวทำนาย 3 ตัวฉันจะสร้างชุดย่อย:2 3 = 8x1, x2, x3x1,x2,x3x_1,x_2,x_323= 823=82^3=8 ชุดย่อยที่ไม่มีตัวทำนาย เซตย่อยที่มีตัวทำนายx1x1x_1 เซตย่อยที่มีตัวทำนายx2x2x_2 เซตย่อยที่มีตัวทำนายx3x3x_3 เซตย่อยที่มีตัวทำนายx1, x2x1,x2x_1,x_2 เซตย่อยที่มีตัวทำนายx1, x3x1,x3x_1,x_3 เซตย่อยที่มีตัวทำนายx2, x3x2,x3x_2,x_3 เซตย่อยที่มีตัวทำนายx1, x2, x3x1,x2,x3x_1,x_2,x_3 จากนั้นฉันจะทดสอบแบบจำลองเหล่านี้ทั้งหมดในข้อมูลการทดสอบเพื่อเลือกแบบที่ดีที่สุด ตอนนี้คำถามของฉันคือเหตุใดการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเช่นบ่วงบาศ ถ้าฉันเปรียบเทียบฟังก์ชั่น thresholding ของเซตย่อยและ lasso ที่ดีที่สุดฉันจะเห็นว่าเซตย่อยที่ดีที่สุดกำหนดค่าสัมประสิทธิ์บางค่าให้เป็นศูนย์เช่น lasso แต่ค่าสัมประสิทธิ์อื่น ๆ (ที่ไม่ใช่ศูนย์) จะยังคงมีค่า ols พวกเขาจะไม่ได้รับอคติ ในขณะที่ lasso สัมประสิทธิ์บางอย่างจะเป็นศูนย์และอื่น ๆ (ไม่ใช่ศูนย์) จะมีอคติ รูปด้านล่างแสดงว่าดีกว่า: จากภาพส่วนหนึ่งของเส้นสีแดงในกล่องเซตย่อยที่ดีที่สุดวางลงบนสีเทา อีกส่วนหนึ่งวางอยู่ในแกน x ซึ่งสัมประสิทธิ์บางค่าเป็นศูนย์ เส้นสีเทากำหนดโซลูชันที่ไม่เอนเอียง ในเชือกอคติบางส่วนเป็นที่รู้จักโดย\จากรูปนี้ฉันเห็นว่าเซตย่อยที่ดีที่สุดดีกว่าบ่วงบาศ! …

1
วิธีการแก้ปัญหาแบบปิดเพื่อแก้ไขปัญหา lasso เมื่อ data matrix เป็นแนวทแยง
\newcommand{\diag}{\operatorname{diag}}เรามีปัญหา: มีสมมติฐานว่า: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ... , \ sigma_d ^ 2)minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). ในกรณีนี้มีวิธีแก้ปัญหาแบบปิดหรือไม่? ฉันมี: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ดังนั้นฉันคิดว่าคำตอบคือ : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},สำหรับyj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}แต่ฉันไม่แน่ใจ

2
ถ้า p> n, lasso เลือกได้ไม่เกิน n ตัวแปร
แรงจูงใจอย่างหนึ่งของตาข่ายยางยืดคือข้อ จำกัด ของ LASSO ดังต่อไปนี้: ในกรณีสายบาศกเลือกตัวแปร n ส่วนใหญ่ก่อนที่จะอิ่มตัวเนื่องจากลักษณะของปัญหาการปรับให้เหมาะสมของนูน นี่ดูเหมือนจะเป็นคุณสมบัติที่ จำกัด สำหรับวิธีการเลือกตัวแปร ยิ่งไปกว่านั้นเชือกไม่ได้กำหนดไว้อย่างชัดเจนเว้นแต่ขอบเขตของ L1-norm ของสัมประสิทธิ์มีค่าน้อยกว่าค่าที่แน่นอนp > np>np > n ( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full ) ฉันเข้าใจว่า LASSO เป็นปัญหาการเขียนโปรแกรมสมการกำลังสอง แต่ยังสามารถแก้ไขได้ผ่าน LARS หรือการไล่ระดับสีแบบองค์ประกอบที่ชาญฉลาด แต่ฉันไม่เข้าใจว่าในอัลกอริธึมเหล่านี้ฉันพบปัญหาหรือไม่ถ้าโดยที่คือจำนวนตัวทำนายและคือขนาดตัวอย่าง และทำไมปัญหานี้แก้ไขได้โดยใช้สุทธิยืดหยุ่นที่ฉันเพิ่มปัญหาไปตัวแปรที่ชัดเจนเกินหน้าp n p + n pp > np>np > nพีppnnnp + np+np+nพีpp

1
ทำซ้ำตารางที่ 18.1 จาก“ องค์ประกอบของการเรียนรู้เชิงสถิติ”
ตารางที่ 18.1 ในองค์ประกอบของการเรียนรู้ทางสถิติสรุปประสิทธิภาพของตัวแยกประเภทหลายตัวในชุดข้อมูลระดับ 14 ฉันกำลังเปรียบเทียบอัลกอริธึมใหม่กับ lasso และ elastic net สำหรับปัญหาการจำแนกประเภทมัลติคลาส การใช้glmnetเวอร์ชั่น 1.5.3 (R 2.13.0) ฉันไม่สามารถทำซ้ำจุดที่ 7 ( -multalomial multinomial) ในตารางซึ่งรายงานจำนวนยีนที่ใช้เป็น 269 และข้อผิดพลาดในการทดสอบคือ 13 out 54 ข้อมูลที่ใช้เป็นแบบนี้14 มะเร็งชุดข้อมูล ไม่ว่าฉันจะพยายามทำอะไรฉันจะได้แบบจำลองที่มีประสิทธิภาพสูงสุดโดยใช้ยีนใกล้เคียงกับ 170-180 ยีนที่มีข้อผิดพลาดในการทดสอบ 16 จาก 54 ข้อL1L1L_1 โปรดทราบว่าในตอนต้นของส่วน 18.3 ในหน้า 654 มีการอธิบายการประมวลผลข้อมูลล่วงหน้าบางส่วน ฉันได้ติดต่อผู้เขียนแล้วโดยไม่ตอบสนองและฉันถามว่าใครสามารถยืนยันว่ามีปัญหาในการทำซ้ำตารางหรือให้วิธีแก้ปัญหาในการสร้างตาราง

3
GLMNET หรือ LARS สำหรับการคำนวณโซลูชัน LASSO?
ฉันต้องการรับค่าสัมประสิทธิ์สำหรับปัญหา LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. ปัญหาคือฟังก์ชั่น glmnet และ lars ให้คำตอบที่ต่างกัน สำหรับฟังก์ชั่น glmnet ฉันขอสัมประสิทธิ์ของλ / | | Y| |λ/||Y||\lambda/||Y||แทนที่จะเป็นλλ\lambdaแต่ฉันยังได้คำตอบที่ต่างออกไป คาดหวังหรือไม่ ความสัมพันธ์ระหว่างลาร์สλλ\lambdaและ glmnet λλ\lambdaคืออะไร? ฉันเข้าใจว่า glmnet นั้นเร็วกว่าสำหรับปัญหา LASSO แต่ฉันอยากจะรู้ว่าวิธีใดที่มีประสิทธิภาพมากกว่า deps_stats ฉันกลัวว่าขนาดของชุดข้อมูลของฉันมีขนาดใหญ่มากจน LARS ไม่สามารถจัดการได้ในขณะที่ glmnet สามารถจัดการกับชุดข้อมูลขนาดใหญ่ของฉันได้ mpiktas ฉันต้องการหาคำตอบของ (Y-Xb) ^ 2 + L \ sum …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.