คำถามติดแท็ก lasso

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งทำให้สัมประสิทธิ์เป็นศูนย์ลดลงทำให้บางส่วนของพวกเขาเท่ากับศูนย์ lasso จึงทำการเลือกคุณสมบัติ

3
LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?
การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XXXZZZX∗ ZX* * * *ZX*ZstepR LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?

2
Bayesian lasso กับ Lasso สามัญ
ซอฟแวร์การดำเนินงานที่แตกต่างกันสำหรับเชือก ฉันรู้มากพูดคุยเกี่ยวกับวิธีการแบบเบส์เทียบกับวิธีการบ่อยในฟอรั่มที่แตกต่างกัน คำถามของฉันเฉพาะเจาะจงมากกับบ่วงบาศ - อะไรคือความแตกต่างหรือข้อดีของบ่วงเซียนบ่วงบาศกับบ่วงบาศปกติ ? นี่เป็นสองตัวอย่างของการใช้งานในแพ็คเกจ: # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) ดังนั้นเมื่อใดฉันจึงควรเลือกวิธีใดวิธีหนึ่ง หรือพวกเขาเหมือนกัน?

4
L1 ถดถอยประมาณค่ามัธยฐานในขณะที่ประมาณการถดถอย L2 หมายถึงอะไร
ดังนั้นฉันจึงถูกถามคำถามที่มาตรการกลาง L1 (เช่น Lasso) และ L2 (เช่นการถดถอยสัน) ประเมิน คำตอบคือ L1 = ค่ามัธยฐานและ L2 = ค่าเฉลี่ย มีเหตุผลแบบนี้หรือไม่? หรือว่าจะต้องมีการกำหนดทางพีชคณิต? ถ้าเป็นเช่นนั้นฉันจะทำยังไงต่อ

1
การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น
ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1L1L_1 ) และ Ridge ( L2L2L_2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ≥1γ≥1\gamma \geq 1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็น∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}{1} นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน …

3
ทำไม Lars และ Glmnet จึงเสนอวิธีแก้ปัญหาต่าง ๆ สำหรับ Lasso?
ฉันต้องการเข้าใจแพ็คเกจ R Larsและดีกว่าGlmnetซึ่งใช้เพื่อแก้ปัญหา Lasso: (สำหรับตัวอย่างpตัวแปรและNดูwww.stanford.edu/~hastie/Papers/glmnet.pdfหน้า 3)m ฉันn( β0β) ∈ Rp + 1[ 12 NΣi = 1ยังไม่มีข้อความ( yผม- β0- xTผมβ)2+ λ | | β| |ล.1]ม.ผมn(β0β)∈Rพี+1[12ยังไม่มีข้อความΣผม=1ยังไม่มีข้อความ(Yผม-β0-xผมTβ)2+λ||β||ล.1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]พีพีpยังไม่มีข้อความยังไม่มีข้อความN ดังนั้นฉันจึงใช้ทั้งชุดของเล่นเดียวกัน น่าเสียดายที่ทั้งสองวิธีไม่ได้ให้วิธีแก้ไขปัญหาเดียวกันสำหรับการป้อนข้อมูลเดียวกัน ไม่มีใครมีความคิดที่แตกต่างมาจากไหน? ฉันได้ผลลัพธ์ดังนี้: หลังจากสร้างข้อมูล (8 ตัวอย่าง, 12 คุณสมบัติ, การออกแบบ Toeplitz, ทุกอย่างที่อยู่กึ่งกลาง) ฉันคำนวณเส้นทาง Lasso ทั้งหมดโดยใช้ Lars จากนั้นฉันใช้ Glmnet …

1
ทำไม LASSO ถึงไม่หาคู่ทำนายที่สมบูรณ์แบบของฉันในมิติที่สูง?
ฉันใช้การทดลองเล็ก ๆ กับ LASSO regression ใน R เพื่อทดสอบว่ามันสามารถหาคู่ทำนายที่สมบูรณ์แบบได้หรือไม่ ทั้งคู่มีการกำหนดดังนี้: f1 + f2 = result ผลลัพธ์ที่ได้คือเวกเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า 'อายุ' F1 และ f2 ถูกสร้างขึ้นโดยใช้เวกเตอร์อายุครึ่งหนึ่งและตั้งค่าที่เหลือเป็น 0 ตัวอย่างเช่น: age = [1,2,3,4,5,6], f1 = [1,2,3, 0,0,0] และ f2 = [0,0,0,4,5,6] ฉันรวมคู่ทำนายนี้กับจำนวนที่เพิ่มขึ้นของตัวแปรที่สร้างแบบสุ่มโดยการสุ่มตัวอย่างจากการแจกแจงปกติ N (1,1) สิ่งที่ฉันเห็นคือเมื่อฉันกด 2 ^ 16 ตัวแปร LASSO ไม่พบคู่ของฉันอีกต่อไป ดูผลลัพธ์ด้านล่าง ทำไมสิ่งนี้จึงเกิดขึ้น คุณสามารถทำซ้ำผลลัพธ์ด้วยสคริปต์ด้านล่าง ฉันสังเกตว่าเมื่อฉันเลือกเวกเตอร์อายุที่แตกต่างกันเช่น: [1: 193] ดังนั้น …

1
ถ้า LASSO เทียบเท่ากับการถดถอยเชิงเส้นแบบ Laplace ก่อนจะมีมวลในเซตที่มีส่วนประกอบเป็นศูนย์ได้อย่างไร?
เราทุกคนต่างคุ้นเคยกับความคิดเอกสารที่เขียนไว้ในเอกสารว่าการเพิ่มประสิทธิภาพ LASSO (เพื่อความเรียบง่าย จำกัด ความสนใจที่นี่ในกรณีของการถดถอยเชิงเส้น) เทียบเท่ากับโมเดลเชิงเส้นที่มีข้อผิดพลาดแบบเกาส์ซึ่งพารามิเตอร์จะได้รับ Laplace ก่อนหน้า เราทราบด้วยเช่นกันว่าค่าที่สูงกว่าจะตั้งค่าพารามิเตอร์การปรับ\ lambdaยิ่งพารามิเตอร์ส่วนใหญ่ถูกกำหนดเป็นศูนย์ สิ่งนี้ถูกกล่าวว่าฉันมีคำถามความคิดต่อไปนี้:loss=∥y−Xβ∥22+λ∥β∥1loss=‖y−Xβ‖22+λ‖β‖1 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 exp(−λ∥β∥1)exp⁡(−λ‖β‖1) \exp(-\lambda \| \beta \|_1 ) λλ\lambda พิจารณาจากมุมมองแบบเบส์เราสามารถคำนวณความน่าจะเป็นด้านหลังที่กล่าวว่าการประมาณค่าพารามิเตอร์ที่ไม่เป็นศูนย์อยู่ในการรวบรวมช่วงเวลาใด ๆและพารามิเตอร์ที่กำหนดเป็นศูนย์โดย LASSO เท่ากับศูนย์ สิ่งที่ฉันสับสนคือเมื่อ Laplace ก่อนหน้านี้ต่อเนื่อง (ในความเป็นจริงอย่างต่อเนื่อง) จากนั้นจะมีมวลในเซตใด ๆ ที่เป็นผลคูณของระยะและ singletons ที่อย่างไร?{0}{0}\{0\}

5
เรายังต้องเลือกคุณสมบัติในขณะใช้อัลกอริทึม
ฉันมีคำถามหนึ่งข้อที่ต้องใช้วิธีการเลือกคุณลักษณะ (สุ่มป่าคุณลักษณะค่าความสำคัญหรือวิธีการเลือกคุณสมบัติแบบไม่รวมตัวแปร) ก่อนใช้อัลกอริทึมการเรียนรู้เชิงสถิติ เรารู้ว่าเพื่อหลีกเลี่ยงการ overfitting เราสามารถแนะนำการปรับความสม่ำเสมอในเวกเตอร์น้ำหนัก ดังนั้นถ้าฉันต้องการทำการถดถอยเชิงเส้นจากนั้นฉันสามารถแนะนำ L2 หรือ L1 หรือแม้แต่พารามิเตอร์การทำให้เป็นมาตรฐานสุทธิยืดหยุ่น ในการรับโซลูชันที่กระจัดกระจายการลงโทษ L1 จะช่วยในการเลือกคุณลักษณะ ถ้าอย่างนั้นก็ยังต้องเลือกคุณสมบัติก่อนใช้การถดถอยปกติของ L1 เช่น Lasso? ในทางเทคนิค Lasso ช่วยฉันลดฟีเจอร์ด้วยการลงโทษ L1 แล้วทำไมต้องเลือกฟีเจอร์ก่อนใช้งาน algo? ฉันอ่านบทความวิจัยที่บอกว่าการทำ Anova จากนั้น SVM ให้ประสิทธิภาพที่ดีกว่าการใช้ SVM เพียงอย่างเดียว ตอนนี้คำถามคือ: SVM ทำการทำให้เป็นมาตรฐานโดยใช้ L2 เป็นประจำ เพื่อให้ได้มาร์จิ้นที่มากที่สุดก็คือการลดขนาดของเวกเตอร์น้ำหนัก ดังนั้นมันจึงทำให้เป็นมาตรฐานในฟังก์ชันวัตถุประสงค์ ถ้าเช่นนั้นอัลกอริทึมทางเทคนิคเช่น SVM ไม่ควรกังวลเกี่ยวกับวิธีการเลือกคุณสมบัติหรือไม่ แต่รายงานยังคงกล่าวว่าการเลือกคุณลักษณะ Univariate ก่อน SVM ปกติจะมีประสิทธิภาพมากกว่า ใครที่มีความคิด

2
KKT เทียบกับสูตรที่ไม่มีข้อ จำกัด ของการถดถอยแบบ lasso
L1 ลงโทษการถดถอย (aka Lasso) จะถูกนำเสนอในสองสูตร ให้ทั้งสองฟังก์ชั่นวัตถุประสงค์เป็น ดังนั้นสูตรที่แตกต่างกันสองอย่างคือ อยู่ภายใต้ และ, การใช้เงื่อนไข Karush-Kuhn-Tucker (KKT) มันง่ายที่จะเห็นว่าเงื่อนไขคงที่สำหรับสูตรแรกนั้นเทียบเท่ากับการไล่ระดับสีของสูตรที่สองและตั้งค่าเท่ากับ 0 สิ่งที่ฉันไม่สามารถหาได้ เป็นวิธีที่เงื่อนไขความหย่อนสมบูรณ์ของสูตรแรกQ1= 12| | Y- Xβ| |22Q2= 12| | Y- Xβ| |22+ λ | | β| |1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 | | …

2
การประมาณค่า R-squared และนัยสำคัญทางสถิติจากโมเดลการถดถอยเชิงลงโทษ
ฉันใช้แพ็กเกจ R ที่ถูกลงโทษเพื่อให้ได้ค่าสัมประสิทธิ์การหดตัวสำหรับชุดข้อมูลที่ฉันมีตัวทำนายจำนวนมากและมีความรู้เพียงเล็กน้อยซึ่งเป็นสิ่งที่สำคัญ หลังจากที่ฉันเลือกพารามิเตอร์การปรับแต่ง L1 และ L2 และฉันพอใจกับค่าสัมประสิทธิ์ของฉันจะมีวิธีทางสถิติที่จะสรุปรูปแบบที่เหมาะสมกับ R-squared หรือไม่? นอกจากนี้ฉันสนใจที่จะทดสอบความสำคัญโดยรวมของโมเดล (เช่นR² = 0 หรือทำทั้งหมด = 0) ฉันได้อ่านคำตอบของคำถามที่คล้ายกันแล้วที่นี่แต่ก็ไม่ได้ตอบคำถามของฉัน มีการสอนที่ยอดเยี่ยมเกี่ยวกับแพ็คเกจ R ที่ฉันใช้ที่นี่และผู้เขียน Jelle Goeman มีหมายเหตุต่อไปนี้ในตอนท้ายของบทช่วยสอนเกี่ยวกับช่วงความมั่นใจจากโมเดลการถดถอยที่ถูกลงโทษ: มันเป็นคำถามที่ธรรมดามากที่จะถามถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยหรือปริมาณที่ประมาณไว้อื่น ๆ ในหลักการข้อผิดพลาดมาตรฐานดังกล่าวสามารถคำนวณได้ง่ายเช่นการใช้ bootstrap ยังคงแพคเกจนี้โดยเจตนาไม่ได้ให้พวกเขา เหตุผลของเรื่องนี้คือข้อผิดพลาดมาตรฐานไม่ได้มีความหมายมากสำหรับการประเมินแบบเอนเอียงอย่างรุนแรงเช่นเกิดจากวิธีการประเมินที่ถูกลงโทษ การประมาณค่าแบบลงโทษเป็นกระบวนการที่ช่วยลดความแปรปรวนของตัวประมาณค่าโดยการแนะนำอคติอย่างมีนัยสำคัญ ความเอนเอียงของตัวประมาณแต่ละตัวจึงเป็นองค์ประกอบหลักของความคลาดเคลื่อนกำลังสองเฉลี่ยในขณะที่ความแปรปรวนอาจมีส่วนเพียงเล็กน้อยเท่านั้น แต่น่าเสียดายที่ในการใช้งานส่วนใหญ่ของการถดถอยเชิงลงโทษนั้นเป็นไปไม่ได้ที่จะได้รับการประเมินความลำเอียงที่แม่นยำเพียงพอ การคำนวณตาม bootstrap ใด ๆ สามารถให้การประเมินความแปรปรวนของการประมาณการเท่านั้น การประมาณการที่น่าเชื่อถือของอคตินั้นจะมีให้เฉพาะในกรณีที่การประมาณการที่เป็นกลางไม่น่าเชื่อถือมีอยู่ซึ่งโดยทั่วไปจะไม่เกิดขึ้นในกรณีที่มีการใช้การประมาณการที่ถูกลงโทษ การรายงานข้อผิดพลาดมาตรฐานของการประเมินที่ถูกลงโทษจึงบอกเพียงส่วนหนึ่งของเรื่องราว มันสามารถสร้างความประทับใจที่ผิดพลาดอย่างแม่นยำโดยไม่สนใจความไม่ถูกต้องที่เกิดจากอคติอย่างสมบูรณ์ มันเป็นความผิดพลาดอย่างแน่นอนในการสร้างคำแถลงความเชื่อมั่นซึ่งตั้งอยู่บนพื้นฐานของการประเมินความแปรปรวนของการประมาณการเช่นช่วงความเชื่อมั่นที่ใช้ bootstrap

2
มันสมเหตุสมผลที่จะทำ OLS หลังจากการเลือกตัวแปร LASSO อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้พบว่าในวรรณคดีเศรษฐศาสตร์ประยุกต์ที่ใช้เมื่อจัดการกับปัญหาการเลือกคุณสมบัติมันไม่แปลกที่จะทำ LASSO ตามด้วย OLS ถดถอยโดยใช้ตัวแปรที่เลือก ฉันสงสัยว่าเราจะมีคุณสมบัติที่ถูกต้องของกระบวนการดังกล่าวได้อย่างไร มันจะทำให้เกิดปัญหาเช่นตัวแปรที่ละเว้นหรือไม่ หลักฐานใด ๆ ที่แสดงว่ามีประสิทธิภาพมากขึ้นหรือผลลัพธ์สามารถตีความได้มากกว่านี้? นี่คือการสนทนาที่เกี่ยวข้อง: การเลือกตัวแปรกับ LASSO การใช้ต้นไม้หลังจากการเลือกตัวแปรโดยใช้ Lasso / Random ถ้าตามที่ระบุไว้ขั้นตอนดังกล่าวไม่ถูกต้องโดยทั่วไปแล้วทำไมยังมีงานวิจัยมากมายที่ทำเช่นนั้น? ฉันสามารถพูดได้ไหมว่ามันเป็นเพียงแค่กฎของหัวแม่มือวิธีการประนีประนอมเนื่องจากคุณสมบัติที่ไม่สบาย ๆ ของเครื่องประมาณ LASSO และความชื่นชอบของผู้คนที่มีต่อ OLS?

1
สิ่งที่จะสรุปได้จากพล็อต lasso (glmnet)
ต่อไปนี้คือโครงร่างของ glmnet ที่มีค่าเริ่มต้นอัลฟา (1 ดังนั้น lasso) โดยใช้mtcarsชุดข้อมูลใน R พร้อมกับmpgDV และอื่น ๆ เป็นตัวแปรตัวทำนาย glmnet(as.matrix(mtcars[-1]), mtcars[,1]) สิ่งที่เราสามารถสรุปได้จากพล็อตนี้เกี่ยวกับตัวแปรที่แตกต่างกันโดยเฉพาะอย่างยิ่งam, cylและwt(สีแดง, สีดำและสีแสงเส้นสีน้ำเงิน)? เราจะวลีผลลัพธ์ในรายงานที่จะเผยแพร่อย่างไร ฉันคิดถึงสิ่งต่อไปนี้: wtmpgเป็นปัจจัยบ่งชี้ที่สำคัญที่สุดของ mpgมันเป็นในเชิงลบที่มีผลต่อ cylmpgเป็นปัจจัยบ่งชี้เชิงลบที่อ่อนแอของ ammpgอาจจะเป็นปัจจัยบ่งชี้ในเชิงบวกของ ตัวแปรอื่น ๆ mpgที่มีการพยากรณ์ไม่ได้ที่แข็งแกร่งของ ขอบคุณสำหรับความคิดของคุณเกี่ยวกับเรื่องนี้ (หมายเหตุ: cylเป็นเส้นสีดำซึ่งไม่ถึง 0 จนกระทั่งอยู่ใกล้มาก) แก้ไข: ต่อไปนี้คือพล็อต (mod, xvar = 'lambda') ซึ่งแสดงแกน x ในลำดับที่กลับด้านบนของพล็อต: (ป.ล. : หากคุณพบว่าคำถามนี้น่าสนใจ / สำคัญโปรดโหวตขึ้น;)

2
การวิเคราะห์ความยืดหยุ่น / ริดจ์ / เชือก
ฉันได้รับความสนใจในขั้นตอนสุทธิที่ยืดหยุ่นสำหรับการคาดการณ์การหดตัว / การเลือก ดูเหมือนว่าทรงพลังมาก แต่จากมุมมองทางวิทยาศาสตร์ฉันไม่รู้ดีว่าต้องทำอะไรเมื่อได้สัมประสิทธิ์ ฉันจะตอบคำถามอะไร นี่คือตัวแปรที่มีอิทธิพลต่อผลลัพธ์มากที่สุดและมีสัมประสิทธิ์ซึ่งให้อัตราส่วนความแปรปรวน / ความเอนเอียงที่ดีที่สุดระหว่างการตรวจสอบความถูกต้อง? แน่นอนว่านี่เป็นวิธีการบรรยาย / การคาดการณ์ที่ดีมากเมื่อเปรียบเทียบกับวิธีการประเมินค่าความเชื่อมั่นแบบดั้งเดิม ขณะนี้ Tibshirani & Co. ได้ทำการศึกษาการประมาณค่าอนุมาน แต่ยังอยู่ระหว่างการทดลอง บางคนกำลังใช้ตัวแปรที่ถูกเลือกโดยเครือข่ายอีลาสติกเพื่อทำการวิเคราะห์เชิงอนุมานแบบคลาสสิก แต่นั่นจะขจัดข้อ จำกัด ในความแปรปรวนที่เกิดจากเทคนิค ปัญหาอีกประการหนึ่งคือเนื่องจากพารามิเตอร์แลมบ์ดาและอัลฟาสำหรับตาข่ายยืดหยุ่นถูกเลือกโดยการตรวจสอบความถูกต้องของข้อมูลพวกเขาจึงมีความแปรปรวนแบบสุ่ม ดังนั้นทุกครั้งที่คุณเรียกใช้ (เช่น.) cv.glmnet () คุณจะเลือกเซตย่อยที่แตกต่างกันเล็กน้อยของตัวทำนายที่มีค่าสัมประสิทธิ์ต่างกันอยู่เสมอ ฉันว่าเกี่ยวกับการแก้ปัญหานี้โดยพิจารณาแลมบ์ดาและอัลฟาที่ถูกต้องเป็นตัวแปรสุ่มและดำเนินการขั้นตอนการตรวจสอบความถูกต้องอีกครั้ง n เพื่อรับการแจกแจงของพารามิเตอร์เหล่านี้ วิธีนี้สำหรับผู้ทำนายทุกคนฉันจะมีจำนวนครั้งและทุกค่าสัมประสิทธิ์ฉันจะมีการแจกแจงผล สิ่งนี้จะให้ผลลัพธ์ generalizable เพิ่มเติมกับฉันช่วงสถิติ (เช่น sd ของสัมประสิทธิ์) มันน่าสนใจที่จะเห็นว่าแลมบ์ดาและอัลฟ่าเลือกวิธีนี้ใกล้เคียงกับการแจกแจงแบบไม่แสดงอาการหรือไม่เพราะมันจะเปิดทางสำหรับการทดสอบการอนุมาน (แต่ฉันไม่ใช่นักสถิติดังนั้นฉันไม่ควรพูดเกี่ยวกับสิ่งที่ฉันทำ ไม่เข้าใจ) ดังนั้นในที่สุดคำถามของฉันคือ: เมื่อคุณได้รับการทำนายและค่าสัมประสิทธิ์จากตาข่ายยืดหยุ่นด้วยการตรวจสอบข้ามตามอัลฟาและแลมบ์ดาซึ่งคุณควรนำเสนอผลลัพธ์เหล่านี้และวิธีการ? คุณควรพูดคุยกับพวกเขาอย่างไร? เราเรียนรู้อะไร เรากำลังตั้งสมมุติฐาน / การวางนัยทั่วไปอะไร

2
LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?
วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

1
มีเงื่อนไขที่ชัดเจนภายใต้เส้นทางบ่วงบาศริดจ์หรืออีลาสติกที่ยืดหยุ่นเป็นโมโนโทนหรือไม่?
คำถามที่จะสรุปจากพล็อต Lasso นี้ (glmnet)แสดงให้เห็นถึงเส้นทางการแก้ปัญหาสำหรับ Lasso Estimatorที่ไม่ใช่แบบโมโนโทนิก นั่นคือบางส่วนของเมล็ดกาแฟเติบโตในค่าสัมบูรณ์ก่อนที่จะหดตัว ฉันใช้โมเดลเหล่านี้กับชุดข้อมูลหลายประเภทและไม่เคยเห็นพฤติกรรมนี้ "ในป่า" และจนถึงทุกวันนี้ได้สันนิษฐานว่าพวกเขามักพูดซ้ำซาก มีเงื่อนไขที่ชัดเจนซึ่งรับประกันว่าเส้นทางของโซลูชันจะเป็นเสียงเดียวหรือไม่? มันมีผลต่อการตีความผลลัพธ์หรือไม่หากเส้นทางเปลี่ยนทิศทาง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.