คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

5
สันเขาและลาสโซบรรทัดฐาน
โพสต์นี้ตามหลังอันนี้: ทำไมการประมาณสันถึงดีกว่า OLS โดยการเพิ่มค่าคงที่ในแนวทแยง นี่คือคำถามของฉัน: เท่าที่ฉันรู้แล้วการทำให้เป็นมาตรฐานของสันเขาใช้ -norm (ระยะทางแบบยูคลิด) แต่ทำไมเราถึงใช้สแควร์ของบรรทัดฐานนี้ (แอปพลิเคชันโดยตรงของจะส่งผลให้มีสแควร์รูทของผลรวมของเบต้ากำลังสอง)ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 เป็นการเปรียบเทียบเราไม่ทำเช่นนี้กับ LASSO ซึ่งใช้ไม่ต้องทำเป็นประจำ แต่นี่คือบรรทัดฐาน"ของจริง" (เพียงผลรวมของกำลังสองของค่าสัมบูรณ์สัมบูรณ์เบต้าและไม่ใช่กำลังสองของผลรวมนี้)ℓ 1ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1 มีคนช่วยฉันอธิบายไหม

3
Lasso กับ Lasso ที่ปรับตัวได้
LASSO และการปรับตัว LASSO เป็นสองสิ่งที่แตกต่างใช่มั้ย (สำหรับฉันบทลงโทษนั้นดูแตกต่างออกไป แต่ฉันแค่ตรวจสอบว่าฉันพลาดอะไรไปหรือเปล่า) เมื่อคุณพูดถึงมุ้งยืด LASSO หรือ LASSO ที่ปรับตัวได้นั้นเป็นกรณีพิเศษหรือไม่? แพคเกจ glmnet ใดที่คุณเลือกถ้าคุณเลือก alpha = 1 Adaptive LASSO ทำงานบนสภาพที่รุนแรงขึ้นใช่ไหม? ทั้งคู่มีคุณสมบัติพยากรณ์ในข้อมูลที่เหมาะสมใช่ไหม

3
วิธีจัดการค่า NA ในวิธีการหดตัว (Lasso) โดยใช้ glmnet
ฉันใช้ "glmnet" สำหรับการถดถอยแบบ lasso ใน GWAS ตัวแปรและบุคคลบางตัวมีค่าหายไปและดูเหมือนว่า glmnet ไม่สามารถจัดการค่าที่ขาดหายไปได้ มีวิธีแก้ไขปัญหานี้หรือไม่? หรือมีแพ็คเกจอื่นที่สามารถจัดการกับค่าที่ขาดหายไปในการถดถอยแบบ lasso ได้หรือไม่? นี่คือสคริปต์ของฉัน > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 for minor allele counts) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 1 1 1 1 1 1 1 1 1 0 2 NA …

2
คำจำกัดความที่แน่นอนของการวัด Deviance ในแพ็คเกจ glmnet พร้อม crossvalidation?
สำหรับการวิจัยปัจจุบันของฉันฉันใช้วิธี Lasso ผ่านแพ็คเกจ glmnet ใน R บนตัวแปรที่ขึ้นกับทวินาม ใน glmnet แลมบ์ดาที่ดีที่สุดจะพบได้ผ่านการตรวจสอบข้ามและแบบจำลองผลลัพธ์สามารถนำมาเปรียบเทียบกับมาตรการต่าง ๆ เช่นข้อผิดพลาดการแบ่งประเภทหรือการเบี่ยงเบน คำถามของฉัน: กำหนด deviance ใน glmnet อย่างไร มันคำนวณอย่างไร (ในกระดาษที่สอดคล้องกัน "เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านพิกัดโคตร" โดย Friedman et al. ฉันพบเฉพาะความคิดเห็นนี้เกี่ยวกับการเบี่ยงเบนที่ใช้ใน cv.glmnet: "หมายถึงการเบี่ยงเบน (ลบสองเท่า ข้อมูล) "(หน้า 17))

1
วิธีการตีความผลลัพธ์เมื่อสันเขาและเชือกแยกทั้งสองทำงานได้ดี แต่ให้ค่าสัมประสิทธิ์ที่แตกต่างกัน
ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBestวิธีการในการscikit-learnที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์ หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50% นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า

2
การตรวจสอบความถูกต้องไขว้หลังจาก LASSO ในข้อมูลการสำรวจที่ซับซ้อน
ฉันกำลังพยายามเลือกรูปแบบตัวทำนายผลผู้สมัครบางคนที่ใช้ LASSO ด้วยผลลัพธ์ที่ต่อเนื่อง เป้าหมายคือการเลือกแบบจำลองที่ดีที่สุดด้วยประสิทธิภาพการทำนายที่ดีที่สุดซึ่งโดยทั่วไปสามารถทำได้โดยการตรวจสอบความถูกต้องของ K-fold cross หลังจากได้รับเส้นทางการแก้ปัญหาของพารามิเตอร์การปรับแต่งจาก LASSO ปัญหาที่นี่คือข้อมูลมาจากการออกแบบการสำรวจหลายขั้นตอนที่ซับซ้อน (NHANES) ด้วยการสุ่มตัวอย่างแบบคลัสเตอร์และการแบ่งชั้น ส่วนการประเมินไม่ยากเนื่องจากglmnetใน R สามารถรับน้ำหนักตัวอย่างได้ แต่ส่วนการตรวจสอบความถูกต้องไขว้นั้นมีความชัดเจนน้อยกว่าสำหรับฉันเนื่องจากการสังเกตการณ์ตอนนี้ไม่ได้เป็นอีกต่อไปแล้วและขั้นตอนการบัญชีสำหรับการสุ่มตัวอย่างน้ำหนักแทนประชากรที่ จำกัด ได้อย่างไร? ดังนั้นคำถามของฉันคือ: 1) วิธีการดำเนินการตรวจสอบความถูกต้องด้วย K-fold ด้วยข้อมูลการสำรวจที่ซับซ้อนเพื่อเลือกพารามิเตอร์การปรับแต่งที่ดีที่สุดได้อย่างไร? โดยเฉพาะอย่างยิ่งวิธีแบ่งพาร์ติชันข้อมูลตัวอย่างในชุดการฝึกอบรมและการตรวจสอบความถูกต้องอย่างเหมาะสม และวิธีการกำหนดประมาณการของข้อผิดพลาดการทำนาย? 2) มีวิธีอื่นในการเลือกพารามิเตอร์การปรับที่ดีที่สุดหรือไม่?

2
การเขียนโปรแกรมกำลังสองและ Lasso
ฉันพยายามทำการ lasso ถดถอยซึ่งมีแบบฟอร์มต่อไปนี้: ย่อขนาดใน( Y - X w ) ′ ( Y - X w ) + λWww(Y−Xw)′(Y−Xw)+λ|w|1(Y−Xw)′(Y−Xw)+λ|w|1(Y - Xw)'(Y - Xw) + \lambda \;|w|_1 ได้รับฉันแนะนำให้หาดีที่สุดด้วยความช่วยเหลือของการเขียนโปรแกรมกำลังสองซึ่งใช้รูปแบบต่อไปนี้:wλλ\lambdawww ย่อในโดยขึ้นอยู่กับ1xxxx≤ข12x′Qx+c′x12x′Qx+c′x\frac{1}{2} x'Qx + c'xAx≤b.Ax≤b.Ax \le b. ตอนนี้ฉันรู้แล้วว่าควรเปลี่ยนเป็นเทอมซึ่งค่อนข้างตรงไปตรงมา อย่างไรก็ตามฉันไม่เห็นว่าฉันจะถ่ายโอนเทอมแรกของสมการแรกไปสู่เทอมแรกของสมการที่สองได้อย่างไร ฉันหาอะไรเกี่ยวกับมันไม่ได้ในเน็ตฉันเลยตัดสินใจถามที่นี่A x ≤ bλλ\lambdaAx≤bAx≤bAx \le b

4
วิธีแก้ไขค่าสัมประสิทธิ์หนึ่งค่าและทำให้พอดีกับค่าอื่น ๆ
ฉันต้องการแก้ไขสัมประสิทธิ์บางอย่างด้วยตัวเองพูดแล้วพอดีสัมประสิทธิ์กับตัวทำนายอื่น ๆ ทั้งหมดในขณะที่รักษาβ 1 = 1.0ในโมเดลβ1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 ฉันจะบรรลุสิ่งนี้โดยใช้ R ได้อย่างไร ฉันต้องการทำงานกับ LASSO ( glmnet) โดยเฉพาะอย่างยิ่งถ้าเป็นไปได้ อีกวิธีหนึ่งคือวิธีการที่ฉันสามารถ จำกัด ค่าสัมประสิทธิ์นี้ในช่วงที่เฉพาะเจาะจงบอกว่า ?0.5 ≤ บีตา1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

1
Ridge และ LASSO ได้รับโครงสร้างความแปรปรวนร่วมหรือไม่?
หลังจากอ่านบทที่ 3 ในองค์ประกอบของการเรียนรู้ทางสถิติ (Hastie, Tibshrani & Friedman) ฉันสงสัยว่ามันเป็นไปได้หรือไม่ที่จะใช้วิธีการหดตัวที่มีชื่อเสียงที่อ้างถึงในชื่อของคำถามนี้เนื่องจากโครงสร้างความแปรปรวนร่วมลดลง ) ปริมาณ ( y⃗ - Xβ⃗ )TV- 1( y⃗ - Xβ⃗ ) + λ f( β) , ( 1 ) (y→−Xβ→)TV−1(y→−Xβ→)+λf(β), (1)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) แทนปกติ นี่เป็นแรงบันดาลใจส่วนใหญ่จากความจริงที่ว่าในแอปพลิเคชันของฉันโดยเฉพาะเรามีความแตกต่างที่แตกต่างกันสำหรับ (และบางครั้งก็เป็นโครงสร้างความแปรปรวนร่วมที่สามารถประเมินได้) พวกเขาในการถดถอย ฉันทำเพื่อการถดถอยสัน: อย่างน้อยเมื่อมีการนำไปใช้ใน Python / C ฉันเห็นว่ามีความแตกต่างที่สำคัญในเส้นทางที่ค่าสัมประสิทธิ์การติดตามซึ่งเป็นที่น่าสังเกตเช่นกันเมื่อเปรียบเทียบเส้นโค้งการตรวจสอบข้ามในทั้งสองกรณี→ y( y⃗ - Xβ⃗ ) ( …

3
มีวิธีป้องกันที่จะเลือกในแบบจำลอง LASSO เพื่อให้ได้จำนวนผู้ทำนายที่ไม่ใช่ศูนย์หนึ่งคนที่ปรารถนา?
เมื่อฉันพิจารณาแลมบ์ดาของฉันผ่านการตรวจสอบข้ามสัมประสิทธิ์ทั้งหมดจะกลายเป็นศูนย์ แต่ฉันมีคำแนะนำบางอย่างจากวรรณกรรมว่าผู้ทำนายบางคนน่าจะส่งผลต่อผลลัพธ์อย่างแน่นอน มันขยะหรือไม่ที่จะเลือกแลมบ์ดาโดยพลการ ฉันต้องการเลือก 10 อันดับแรกหรือมากกว่านั้นสำหรับนักทำนายจาก 135 สำหรับโมเดล cox และขนาดเอฟเฟกต์น่าเสียดายที่มีขนาดเล็ก
11 lasso 

4
Lasso fitting โดยการประสานงานโคตร: การใช้งานโอเพนซอร์ส? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว การใช้งานโอเพนซอร์ซอะไร - ในภาษาใด - มีอยู่ที่นั่นที่สามารถคำนวณเส้นทางการทำปฎิบัติการแบบ lasso สำหรับการถดถอยเชิงเส้นโดยการประสานงานโคตร? จนถึงตอนนี้ฉันรู้: glmnet scikits.learn มีอะไรอีกบ้าง?

4
วิธีจัดการกับค่าที่หายไปเพื่อเตรียมข้อมูลสำหรับการเลือกคุณสมบัติด้วย LASSO
สถานการณ์ของฉัน: ตัวอย่างขนาดเล็ก: 116 ตัวแปรผลลัพธ์ไบนารี รายการตัวแปรอธิบายยาวแบบยาว: 44 ตัวแปรอธิบายไม่ได้มาจากด้านบนของหัวของฉัน ทางเลือกของพวกเขาขึ้นอยู่กับวรรณกรรม กรณีส่วนใหญ่ในตัวอย่างและตัวแปรส่วนใหญ่มีค่าขาดหายไป เลือกวิธีการเลือกคุณลักษณะ: LASSO แพ็คเกจ glmnet ของ R จะไม่ให้ฉันเรียกใช้รูทีน glmnet อย่างเห็นได้ชัดเนื่องจากมีค่าที่ขาดหายไปในชุดข้อมูลของฉัน ดูเหมือนจะมีวิธีการต่าง ๆ สำหรับการจัดการข้อมูลที่หายไปดังนั้นฉันอยากจะรู้ว่า: LASSO กำหนดข้อ จำกัด ใด ๆ ในแง่ของวิธีการใส่ร้ายที่ฉันสามารถใช้ได้หรือไม่? อะไรจะเป็นทางออกที่ดีที่สุดสำหรับวิธีการใส่ร้าย เป็นการดีที่ฉันต้องการวิธีการที่ฉันสามารถทำงานบน SPSS (ดีกว่า) หรือ R UPDATE1: มันชัดเจนจากคำตอบบางส่วนด้านล่างที่ฉันได้จัดการกับปัญหาพื้นฐานเพิ่มเติมก่อนที่จะพิจารณาวิธีการใส่ร้าย ฉันต้องการที่จะเพิ่มคำถามใหม่เกี่ยวกับที่นี่ ในคำตอบที่แนะนำการเข้ารหัสเป็นค่าคงที่และการสร้างตัวแปรใหม่เพื่อจัดการกับค่า 'ไม่สามารถใช้งานได้' และการใช้กลุ่ม lasso: คุณจะบอกว่าถ้าฉันใช้กลุ่ม LASSO ฉันจะสามารถใช้วิธีการที่แนะนำให้ผู้ทำนายต่อเนื่องกับผู้ทำนายหมวดหมู่ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่ามันจะเทียบเท่ากับการสร้างหมวดหมู่ใหม่ - ฉันระแวงว่านี่อาจทำให้เกิดอคติ ไม่มีใครรู้ว่าแพ็คเกจ glmnet ของ R …

1
LASSO เลือกกลุ่มพยากรณ์ได้อย่างไร
ฉันกำลังมองหาคำตอบที่เข้าใจง่ายว่าทำไมรุ่น GLM LASSO เลือกตัวทำนายที่เฉพาะเจาะจงออกจากกลุ่มของกลุ่มที่มีความสัมพันธ์สูงและทำไมมันถึงแตกต่างจากการเลือกคุณสมบัติชุดย่อยที่ดีที่สุด จากรูปทรงเรขาคณิตของ LASSO ที่แสดงในรูปที่ 2 ในTibshirani 1996ฉันเชื่อว่า LASSO เลือกตัวทำนายที่มีความแปรปรวนมากขึ้น ตอนนี้สมมติว่าฉันใช้การเลือกชุดย่อยที่ดีที่สุดกับ CV 10 เท่าเพื่อรับตัวทำนาย 2 ตัวสำหรับโมเดลการถดถอยโลจิสติกและฉันมีความรู้ก่อนที่เหมาะสมว่าตัวทำนาย 2 ตัวเหล่านี้เหมาะสมที่สุด (ในแง่สูญเสีย 0-1) วิธีการแก้ปัญหา LASSO สนับสนุนวิธีการแก้ปัญหาที่ไม่พึงประสงค์ (5 ตัวทำนาย) ที่น้อยกว่าพร้อมกับข้อผิดพลาดในการทำนายที่มากขึ้น โดยสัญชาตญาณอะไรทำให้เกิดความแตกต่างเกิดขึ้น เป็นเพราะวิธีที่ LASSO เลือกระหว่างตัวทำนายที่สัมพันธ์กันหรือไม่?

2
การลงโทษแบบนุ่มนวลเทียบกับการลงโทษ
ฉันกำลังพยายามสรุปสิ่งที่ฉันเข้าใจจนถึงการวิเคราะห์หลายตัวแปรที่มีการลงโทษด้วยชุดข้อมูลมิติสูงและฉันยังคงดิ้นรนโดยใช้คำจำกัดความที่ถูกต้องเกี่ยวกับการลงโทษที่นุ่มนวลกับLasso (หรือ )L1L1L_1 แม่นยำยิ่งขึ้นฉันใช้การกระจัดกระจาย PLS เพื่อวิเคราะห์โครงสร้างข้อมูลแบบ 2 บล็อกรวมถึงข้อมูลจีโนม ( polymorphisms นิวคลีโอไทด์เดี่ยวที่เราพิจารณาความถี่ของอัลลีลย่อยในช่วง {0,1,2} ซึ่งถือว่าเป็นตัวแปรตัวเลข) และ ฟีโนไทป์ต่อเนื่อง (คะแนนเชิงปริมาณลักษณะบุคลิกภาพหรือความไม่สมดุลของสมองยังถือว่าเป็นตัวแปรต่อเนื่อง) ความคิดคือการแยกตัวทำนายที่มีอิทธิพลมากที่สุด (ที่นี่ความผันแปรทางพันธุกรรมในลำดับดีเอ็นเอ) เพื่ออธิบายการแปรผันของฟีโนไทป์ระหว่างบุคคล ฉันเริ่มใช้แพ็คเกจ mixOmics R (เดิมintegrOmics) ซึ่งมีการลงโทษPLSและCCA ที่ทำให้เป็นมาตรฐาน เมื่อมองไปที่รหัส R เราพบว่า "sparsity" ในตัวทำนายนั้นเกิดจากการเลือกตัวแปรอันดับสูงสุดที่มีการโหลดสูงสุด (ในค่าสัมบูรณ์) บนองค์ประกอบ th, (อัลกอริทึม คือการทำซ้ำและคำนวณตัวแปรของการโหลดในองค์ประกอบทำให้ตัวบล็อกการทำนายในแต่ละการวนซ้ำดูการกระจัดกระจาย PLS: การเลือกตัวแปรเมื่อรวมข้อมูล Omicsสำหรับภาพรวม) ในทางตรงกันข้ามแพ็คเกจsplsร่วมเขียนโดย S. Keleş (ดูkkkiiii=1,…,ki=1,…,ki=1,\dots, kkkkเบาบางบางส่วนแควน้อยถดถอยสำหรับพร้อมกันขนาดลดลงและการคัดเลือกตัวแปรสำหรับคำอธิบายที่เป็นทางการมากขึ้นของวิธีการดำเนินการโดยผู้เขียนเหล่านี้) การดำเนินการ -penalization สำหรับการปรับไหมตัวแปรL1L1L_1 มันไม่ได้เป็นที่เห็นได้ชัดกับผมว่ามีความเข้มงวด "bijection" เพื่อที่จะพูดระหว่างการเลือกคุณลักษณะซ้ำขึ้นอยู่กับนุ่ม thresholding …

2
สามารถ
ถ้า β∗=argminβ∥y−Xβ∥22+λ∥β∥1β∗=argminβ‖y−Xβ‖22+λ‖β‖1\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1สามารถ ∥β∗∥2‖β∗‖2\|\beta^*\|_2 เพิ่มขึ้นเมื่อ λλ\lambda เพิ่มขึ้น? ฉันคิดว่ามันเป็นไปได้ แม้ว่า∥β* * * *∥1‖β* * * *‖1\|\beta^*\|_1 ไม่เพิ่มขึ้นเมื่อ λλ\lambdaเพิ่มขึ้น ( หลักฐานของฉัน)∥β* * * *∥2‖β* * * *‖2\|\beta^*\|_2สามารถเพิ่ม รูปด้านล่างแสดงความเป็นไปได้ เมื่อไหร่λλ\lambda เพิ่มขึ้นหาก β* * * *β* * * *\beta^* เดินทาง (เชิงเส้น) จาก PPP ถึง QQQจากนั้น ∥β* * * *∥2‖β* * * *‖2\|\beta^*\|_2 เพิ่มขึ้นในขณะที่ ∥β* …
11 lasso 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.