คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

3
ใช้การทำให้เป็นมาตรฐานเมื่อทำการอนุมานเชิงสถิติ
ฉันรู้เกี่ยวกับประโยชน์ของการทำให้เป็นปกติเมื่อสร้างแบบจำลองการทำนาย (อคติกับความแปรปรวนป้องกันการโอเวอร์) แต่ฉันสงสัยว่ามันเป็นความคิดที่ดีหรือไม่ที่จะทำการทำให้เป็นมาตรฐาน (lasso, ridge, elastic net) เมื่อจุดประสงค์หลักของแบบจำลองการถดถอยนั้นอนุมานถึงสัมประสิทธิ์ ฉันชอบที่จะได้ยินความคิดของผู้คนรวมถึงลิงก์ไปยังวารสารทางวิชาการหรือบทความที่ไม่ใช่ด้านวิชาการที่กล่าวถึงเรื่องนี้

1
สมมติฐาน LASSO
ในสถานการณ์การถดถอย LASSO ที่ ,y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon และการประเมิน LASSO นั้นมาจากปัญหาการปรับให้เหมาะสมต่อไปนี้ นาทีβ| | Y- Xβ| | +τ| | β| |1นาทีβ||Y-Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 มีสมมติฐานการกระจายใด ๆ เกี่ยวกับการ ?εε\epsilon ในสถานการณ์ OLS ใครจะคาดหวังว่ามีความเป็นอิสระและกระจายตามปกติεε\epsilon มันสมเหตุสมผลหรือไม่ที่จะวิเคราะห์ส่วนที่เหลือในการถดถอยแบบ LASSO? ฉันรู้ว่าประมาณการ Lasso สามารถรับเป็นโหมดหลังภายใต้อิสระไพรเออร์ดับเบิลชี้แจงสำหรับเจ แต่ฉันไม่พบ "การตรวจสอบสมมติฐานขั้นตอน" มาตรฐานใด ๆβJβJ\beta_j ขอบคุณล่วงหน้า (:

2
LASSO และสันเขาจากมุมมองแบบเบย์: แล้วพารามิเตอร์การจูนล่ะ?
การประมาณค่าถดถอยแบบปรับโทษเช่น LASSO และสันถูกกล่าวว่าสอดคล้องกับตัวประมาณแบบเบย์กับนักบวชบางคน ฉันเดา (เนื่องจากฉันไม่ทราบเกี่ยวกับสถิติของ Bayesian มากพอ) ว่าสำหรับพารามิเตอร์การปรับค่าคงที่มีรูปธรรมที่สอดคล้องกันมาก่อน ตอนนี้ผู้ใช้งานประจำจะปรับพารามิเตอร์การปรับให้เหมาะสมโดยการตรวจสอบข้าม มีสิ่งที่เทียบเท่ากับการทำแบบเบย์หรือไม่และมีการนำมาใช้ทั้งหมดหรือไม่? หรือวิธีการแบบเบย์แก้ไขพารามิเตอร์การจูนอย่างมีประสิทธิภาพก่อนที่จะเห็นข้อมูลหรือไม่? (ฉันเดาว่าหลังจะเป็นอันตรายต่อประสิทธิภาพการทำนาย)

1
วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO
ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง: รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ : โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ : คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง คำถาม: การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร? สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร? เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on …

3
ตัวแปรที่ต่อเนื่องขึ้นอยู่กับตัวแปรอิสระลำดับ
ด้วยตัวแปรy ที่ขึ้นต่อเนื่องและตัวแปรอิสระรวมถึงตัวแปรลำดับX 1ฉันจะพอดีกับตัวแบบเชิงเส้นได้Rอย่างไร? มีเอกสารเกี่ยวกับรูปแบบประเภทนี้หรือไม่?

3
การอนุมานหลังจากใช้ Lasso เพื่อเลือกตัวแปร
ฉันใช้ Lasso สำหรับการเลือกคุณสมบัติในการตั้งค่ามิติที่ค่อนข้างต่ำ (n >> p) หลังจากติดตั้ง Lasso model แล้วฉันต้องการใช้ covariates กับสัมประสิทธิ์ที่ไม่ใช่ศูนย์เพื่อให้พอดีกับ model โดยไม่มีการลงโทษ ฉันกำลังทำเช่นนี้เพราะฉันต้องการการประเมินที่เป็นกลางซึ่ง Lasso ไม่สามารถให้ฉันได้ ฉันยังต้องการค่า p และช่วงความเชื่อมั่นสำหรับการประเมินที่เป็นกลาง ฉันมีปัญหาในการค้นหาวรรณกรรมในหัวข้อนี้ วรรณคดีที่ฉันพบส่วนใหญ่เกี่ยวกับการกำหนดช่วงความเชื่อมั่นในการประเมิน Lasso ไม่ใช่โมเดลที่มีการปรับปรุง จากสิ่งที่ฉันได้อ่านเพียงแค่อ้างอิงโมเดลโดยใช้ชุดข้อมูลทั้งหมดทำให้เกิดข้อผิดพลาด p-values ​​/ std ที่ไม่สมจริง ตอนนี้การแยกตัวอย่าง (ในรูปแบบของ Wasserman และ Roeder (2014) หรือ Meinshausen et al. (2009)) ดูเหมือนจะเป็นแนวทางที่ดี แต่ฉันกำลังมองหาคำแนะนำเพิ่มเติม มีใครพบปัญหานี้หรือไม่? ถ้าเป็นเช่นนั้นคุณช่วยกรุณาให้คำแนะนำได้ไหม

2
เหตุใด Lasso หรือ ElasticNet จึงทำงานได้ดีกว่า Ridge เมื่อฟีเจอร์นั้นสัมพันธ์กัน
ฉันมีฟีเจอร์ 150 ชุดและส่วนใหญ่มีความสัมพันธ์ซึ่งกันและกัน เป้าหมายของฉันคือการทำนายค่าของตัวแปรที่ไม่ต่อเนื่องซึ่งเป็นช่วง1-8 ขนาดตัวอย่างของฉันคือ550และฉันใช้การตรวจสอบความถูกต้องข้าม10 เท่า AFAIK ในบรรดาวิธีการทำให้เป็นมาตรฐาน (Lasso, ElasticNet และ Ridge) Ridge มีความเข้มงวดมากขึ้นในการเชื่อมโยงระหว่างคุณลักษณะต่างๆ นั่นคือเหตุผลที่ฉันคาดว่าด้วย Ridge ฉันควรได้คำทำนายที่แม่นยำยิ่งขึ้น อย่างไรก็ตามผลลัพธ์ของฉันแสดงว่าค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยของ Lasso หรือ Elastic อยู่ที่ประมาณ0.61ในขณะที่คะแนนนี้เท่ากับ0.97สำหรับการถดถอยของสัน ฉันสงสัยว่าอะไรจะเป็นคำอธิบายสำหรับสิ่งนี้ นี่เป็นเพราะฉันมีคุณสมบัติมากมายและ Lasso ทำงานได้ดีขึ้นเพราะทำให้การเลือกคุณสมบัติเรียงลำดับโดยกำจัดคุณสมบัติที่ซ้ำซ้อนออกไป

2
ทำไมการถดถอยของสันเขาถึงไม่ลดทอนสัมประสิทธิ์ให้เป็นศูนย์อย่างเช่นบ่วงบาศ?
เมื่ออธิบายการถดถอยของ LASSO ไดอะแกรมของเพชรและวงกลมมักถูกนำมาใช้ ได้มีการกล่าวกันว่าเนื่องจากรูปร่างของข้อ จำกัด ใน LASSO เป็นเพชรวิธีแก้ปัญหาที่น้อยที่สุดที่ได้รับอาจแตะที่มุมของเพชรเพื่อให้เกิดการหดตัวของตัวแปรบางตัว อย่างไรก็ตามในการถดถอยของสันเขาเนื่องจากมันเป็นวงกลมมันมักจะไม่ได้สัมผัสกับแกน ฉันไม่เข้าใจว่าทำไมมันไม่สามารถแตะแกนหรืออาจมีความน่าจะเป็นต่ำกว่า LASSO เพื่อลดขนาดพารามิเตอร์บางอย่าง ทำไม LASSO และสันถึงมีความแปรปรวนต่ำกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุด? ข้างต้นคือความเข้าใจของฉันเกี่ยวกับสันและ LASSO และฉันอาจผิด ใครสามารถช่วยฉันเข้าใจว่าทำไมวิธีการถดถอยทั้งสองนี้จึงมีความแปรปรวนต่ำกว่า

1
การถดถอยแบบมิติสูง: ทำไมพิเศษ?
ฉันพยายามอ่านงานวิจัยในเรื่องการถดถอยแบบมิติสูง เมื่อมีขนาดใหญ่กว่า , ที่อยู่,n ดูเหมือนว่าคำว่ามักปรากฏในรูปของอัตราการลู่เข้าสำหรับตัวประมาณค่าการถดถอยpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n ตัวอย่างเช่นที่นี่สมการ (17) บอกว่ารูปทรงพอดีเชือกสอดคล้องกับ β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. ปกตินี้ยังแสดงให้เห็นว่าlogplog⁡p\log pควรจะมีขนาดเล็กกว่าnnnn มีสัญชาตญาณว่าทำไมอัตราส่วนของlogp/nlog⁡p/n\log p/nจึงโดดเด่นเช่นนี้? นอกจากนี้ก็ดูเหมือนว่าจากวรรณกรรมปัญหาการถดถอยมิติสูงได้รับซับซ้อนเมื่อlogp≥nlog⁡p≥n\log p \geq nn ทำไมถึงเป็นเช่นนั้น? มีการอ้างอิงที่ดีที่กล่าวถึงปัญหาที่ว่าpppและnnnจะโตเร็วแค่ไหนเมื่อเปรียบเทียบกัน?

1
ทำไม“ บ่วงบาศแบบผ่อนคลาย” จึงแตกต่างจากบ่วงมาตรฐาน?
หากเราเริ่มต้นด้วยชุดข้อมูลให้ใช้ Lasso กับมันและหาทางออกเราสามารถใช้ Lasso อีกครั้งกับชุดข้อมูลโดยที่คือชุดที่ไม่ใช่ ดัชนีเป็นศูนย์ของเพื่อรับโซลูชันซึ่งเรียกว่าโซลูชัน 'relax LASSO' (แก้ไขให้ฉันถ้าฉันผิด!) วิธีการแก้ปัญหาต้องเป็นไปตามเงื่อนไขKarush – Kuhn – Tucker (KKT)สำหรับแต่เนื่องจากรูปแบบของเงื่อนไข KKT สำหรับก็ไม่เป็นไปตามนี้หรือไม่ ถ้าเป็นเช่นนั้นการทำ LASSO ครั้งที่สองคืออะไร?( X, วาย)(X,Y)(X,Y)βLβL\beta^L( XS, วาย)(XS,Y)(X_S, Y)SSSβLβL\beta^LβR LβRL\beta^{RL}βLβL\beta^L( X, วาย)(X,Y)(X,Y)( XS, วาย)(XS,Y)(X_S, Y) คำถามนี้เป็นคำถามที่ตามมา: ข้อดีของการทำ "double lasso" หรือการแสดง lasso สองครั้ง?

1
อะไรคือช่วงปกติของค่าที่เป็นไปได้สำหรับพารามิเตอร์การหดตัวในการถดถอยเชิงลงโทษ
ในเชือกหรือสันเขาถดถอยหนึ่งมีการระบุพารามิเตอร์การหดตัวโดยมักจะเรียกว่าหรือ\ค่านี้มักถูกเลือกผ่านการตรวจสอบความถูกต้องของข้อมูลโดยการตรวจสอบค่าต่าง ๆ เกี่ยวกับข้อมูลการฝึกอบรมและดูว่าค่าใดให้ผลดีที่สุดเช่นจากข้อมูลการทดสอบ ช่วงหนึ่งของค่าควรตรวจสอบคืออะไร? มันเป็น ?λλ\lambdaαα\alphaR2R2R^2( 0 , 1 )(0,1)(0,1)

1
ความต้องการสำหรับการจัดศูนย์กลางและข้อมูลที่เป็นมาตรฐานในการถดถอย
พิจารณาการถดถอยเชิงเส้นด้วยการทำให้เป็นมาตรฐาน: เช่นค้นหาที่ย่อเล็กสุด| | A x - b | | 2 + λ | | x | |xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 โดยปกติคอลัมน์ของ A จะเป็นมาตรฐานที่จะมีค่าเฉลี่ยศูนย์และบรรทัดฐานของหน่วยในขณะที่ bbbอยู่ตรงกลางให้มีค่าเฉลี่ยเป็นศูนย์ ฉันต้องการตรวจสอบให้แน่ใจว่าการทำความเข้าใจเกี่ยวกับเหตุผลในการกำหนดมาตรฐานและการจัดกึ่งกลางถูกต้องหรือไม่ ด้วยการทำให้คอลัมน์และbเป็นศูนย์ทำให้เราไม่จำเป็นต้องมีคำดักจับอีกต่อไป มิฉะนั้นวัตถุประสงค์จะเป็น| | A x - x 0 1 - b | | 2 + λ | | x | | 1 . ด้วยการสร้างบรรทัดฐานของคอลัมน์ A เท่ากับ …

2
เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร

1
การทำให้เป็นมาตรฐานสำหรับโมเดล ARIMA
ฉันตระหนักถึง LASSO, สันและชนิดยืดหยุ่นสุทธิของการทำให้เป็นระเบียบในแบบจำลองการถดถอยเชิงเส้น คำถาม: การประมาณแบบลงโทษนี้ (หรือคล้ายกัน) สามารถนำไปใช้กับแบบจำลอง ARIMA (ที่มีส่วน MA ที่ไม่ว่างเปล่า) ได้หรือไม่? pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} คำถามเพิ่มเติมของฉันคือ: เราสามารถรวมคำทั้งหมดได้สูงสุด ( , ) แต่จะลงโทษขนาดของสัมประสิทธิ์ (อาจเป็นไปได้จนหมดศูนย์) มันสมเหตุสมผลไหมpmaxpmaxp_{max}qmaxqmaxq_{max} ถ้าเป็นเช่นนั้นมีการนำไปใช้ใน R หรือซอฟต์แวร์อื่น ๆ หรือไม่? ถ้าไม่ปัญหาคืออะไร โพสต์ที่เกี่ยวข้องบ้างที่สามารถพบได้ที่นี่

1
การถดถอยในการตั้งค่า
ฉันพยายามดูว่าจะไปถดถอยสัน , เชือก , หลักถดถอยส่วนประกอบ (PCR) หรือสแควน้อยบางส่วน (PLS) ในสถานการณ์ที่มีจำนวนมากของตัวแปร / คุณสมบัติ ( ) และขนาดเล็กจำนวนตัวอย่าง ( n < p ) และเป้าหมายของฉันคือการทำนายpppn<pn<pn np>10np>10np>10n ตัวแปร ( และY ) มีความสัมพันธ์ซึ่งกันและกันด้วยองศาที่ต่างกันXXXYYY คำถามของฉันคือกลยุทธ์ใดที่ดีที่สุดสำหรับสถานการณ์นี้ ทำไม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.