สถิติและข้อมูลขนาดใหญ่ elastic-net

1

ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO

ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …

13 feature-selection lasso regularization ridge-regression elastic-net

1

ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom

หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

พิกัดโคตรสำหรับ lasso หรือ elastic net

มีเอกสารหรือหนังสือที่ดีเกี่ยวกับการใช้โคตรประสานงานสำหรับ L1 (lasso) และ / หรือการทำให้เป็นระเบียบสุทธิแบบยืดหยุ่นสำหรับปัญหาการถดถอยเชิงเส้นหรือไม่?

12 regression references lasso regularization elastic-net

2

แสดงความเท่าเทียมกันระหว่างบรรทัดฐานการถดถอยปกติและบรรทัดฐานการถดถอยแบบ จำกัด การใช้ KKT

ตามที่อ้างอิงเล่ม 1 , เล่ม 2และกระดาษ มีการกล่าวถึงว่ามีความเท่าเทียมกันระหว่างการถดถอยแบบปกติ (Ridge, LASSO และ Elastic Net) และสูตรข้อ จำกัด ฉันยังดูCross Validated 1และCross Validated 2แต่ฉันไม่สามารถเห็นคำตอบที่ชัดเจนแสดงให้เห็นว่าการเทียบเท่าหรือตรรกะ คำถามของฉันคือ จะแสดงความเท่าเทียมกันอย่างไรโดยใช้ Karush – Kuhn – Tucker (KKT) สูตรต่อไปนี้ใช้สำหรับการถดถอยแบบริดจ์ บันทึก คำถามนี้ไม่ใช่การบ้าน มันเป็นเพียงเพื่อเพิ่มความเข้าใจของฉันในหัวข้อนี้ UPDATE ฉันยังไม่มีความคิด

12 regression optimization lasso ridge-regression elastic-net

3

Lasso กับ Lasso ที่ปรับตัวได้

LASSO และการปรับตัว LASSO เป็นสองสิ่งที่แตกต่างใช่มั้ย (สำหรับฉันบทลงโทษนั้นดูแตกต่างออกไป แต่ฉันแค่ตรวจสอบว่าฉันพลาดอะไรไปหรือเปล่า) เมื่อคุณพูดถึงมุ้งยืด LASSO หรือ LASSO ที่ปรับตัวได้นั้นเป็นกรณีพิเศษหรือไม่? แพคเกจ glmnet ใดที่คุณเลือกถ้าคุณเลือก alpha = 1 Adaptive LASSO ทำงานบนสภาพที่รุนแรงขึ้นใช่ไหม? ทั้งคู่มีคุณสมบัติพยากรณ์ในข้อมูลที่เหมาะสมใช่ไหม

12 lasso glmnet elastic-net oracle

1

ความแตกต่างระหว่าง ElasticNet ใน Scikit-Learn Python และ Glmnet ใน R

มีใครพยายามที่จะตรวจสอบว่าเหมาะสมกับโมเดล Elastic Net ด้วยElasticNetใน scikit-Learn ใน Python และglmnetใน R บนชุดข้อมูลเดียวกันสร้างผลลัพธ์ทางคณิตศาสตร์ที่เหมือนกันหรือไม่ ฉันได้ทดลองกับการรวมกันของพารามิเตอร์หลายชุด (เนื่องจากทั้งสองฟังก์ชั่นแตกต่างกันในค่าเริ่มต้นที่พวกเขาส่งผ่านไปยังข้อโต้แย้ง) และปรับขนาดข้อมูล แต่ดูเหมือนไม่มีอะไรที่จะสร้างแบบจำลองเดียวกันระหว่างสองภาษา มีใครประสบปัญหาเดียวกันหรือไม่

11 machine-learning scikit-learn glmnet elastic-net

2

อะไรคือ“ เอกสารเร็ว” ที่สำคัญที่สุดเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน

ในหลายคำตอบที่ฉันได้เห็นผู้ใช้ CrossValidated แนะนำ OP ค้นหาเอกสารต้นใน Lasso, Ridge และ Elastic Net สำหรับลูกหลานแล้วน้ำเชื้อทำงานอย่างไรกับ Lasso, Ridge และ Elastic Net

10 references lasso regularization ridge-regression elastic-net

1

การจำลองผลลัพธ์สำหรับการถดถอยเชิงเส้น glmnet โดยใช้เครื่องมือเพิ่มประสิทธิภาพทั่วไป

ฐานะที่เป็นรัฐชื่อฉันพยายามที่จะทำซ้ำผลจากการ glmnet เชิงเส้นโดยใช้เพิ่มประสิทธิภาพ LBFGS lbfgsจากห้องสมุด เครื่องมือเพิ่มประสิทธิภาพนี้ช่วยให้เราสามารถเพิ่มคำศัพท์ปกติ L1 โดยไม่ต้องกังวลเกี่ยวกับความแตกต่างตราบใดที่ฟังก์ชันวัตถุประสงค์ของเรา (ไม่มีคำศัพท์ปกติของ L1) นั้นเป็นนูน ปัญหาการถดถอยเชิงเส้นแบบยืดหยุ่นสุทธิในกระดาษ glmnetนั้นได้รับโดย ที่X \ in \ mathbb {R} ^ {n \ times p}คือเมทริกซ์การออกแบบy \ in \ mathbb {R} ^ pเป็นเวกเตอร์ของการสังเกต\ alpha \ in [0,1]คือพารามิเตอร์เน็ตยืดหยุ่นและ\ lambda> 0คือพารามิเตอร์การทำให้เป็นมาตรฐาน โอเปอเรเตอร์\ Vert x \ Vert_pหมายถึงบรรทัดฐาน Lp ปกติminβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta …

10 r regression regularization glmnet elastic-net

3

ความสับสนที่เกี่ยวข้องกับตาข่ายยืดหยุ่น

ฉันกำลังอ่านบทความนี้เกี่ยวข้องกับเครือข่ายอีลาสติก พวกเขาบอกว่าพวกเขาใช้ตาข่ายยืดหยุ่นเพราะถ้าเราแค่ใช้ Lasso มันก็มีแนวโน้มที่จะเลือกตัวทำนายเพียงตัวเดียวในกลุ่มที่มีความสัมพันธ์สูง แต่นี่ไม่ใช่สิ่งที่เราต้องการ ฉันหมายความว่ามันช่วยเราจากปัญหาความหลากสีไม่ได้ ข้อเสนอแนะ / ชี้แจง?

10 regression lasso elastic-net

1

วิธีการลงโทษสำหรับข้อมูลเด็ดขาด: การรวมระดับในปัจจัย

โมเดลที่ถูกปรับแต่งสามารถใช้เพื่อประเมินโมเดลที่มีจำนวนพารามิเตอร์เท่ากับหรือมากกว่าขนาดตัวอย่าง สถานการณ์นี้อาจเกิดขึ้นในตัวแบบบันทึกการเชิงเส้นของตารางกระจัดกระจายขนาดใหญ่ของข้อมูลเด็ดขาดหรือการนับ ในการตั้งค่าเหล่านี้มักเป็นที่ต้องการหรือเป็นประโยชน์ในการยุบตารางด้วยการรวมระดับของปัจจัยที่ระดับเหล่านั้นไม่สามารถแยกแยะในแง่ของวิธีที่พวกเขาโต้ตอบกับปัจจัยอื่น ๆ สองคำถาม: มีวิธีใช้แบบจำลองที่มีการลงโทษเช่น LASSO หรือ elastic net เพื่อทดสอบการยุบตัวของระดับภายในแต่ละปัจจัยหรือไม่? หากคำตอบสำหรับคำถามแรกคือใช่สามารถและควรตั้งค่านี้ในลักษณะที่การล่มสลายของระดับและการประมาณค่าสัมประสิทธิ์แบบเกิดขึ้นในขั้นตอนเดียว?

10 categorical-data lasso elastic-net log-linear many-categories

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

คำถามติดแท็ก elastic-net