คำถามติดแท็ก regularization

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

3
GLMNET หรือ LARS สำหรับการคำนวณโซลูชัน LASSO?
ฉันต้องการรับค่าสัมประสิทธิ์สำหรับปัญหา LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. ปัญหาคือฟังก์ชั่น glmnet และ lars ให้คำตอบที่ต่างกัน สำหรับฟังก์ชั่น glmnet ฉันขอสัมประสิทธิ์ของλ / | | Y| |λ/||Y||\lambda/||Y||แทนที่จะเป็นλλ\lambdaแต่ฉันยังได้คำตอบที่ต่างออกไป คาดหวังหรือไม่ ความสัมพันธ์ระหว่างลาร์สλλ\lambdaและ glmnet λλ\lambdaคืออะไร? ฉันเข้าใจว่า glmnet นั้นเร็วกว่าสำหรับปัญหา LASSO แต่ฉันอยากจะรู้ว่าวิธีใดที่มีประสิทธิภาพมากกว่า deps_stats ฉันกลัวว่าขนาดของชุดข้อมูลของฉันมีขนาดใหญ่มากจน LARS ไม่สามารถจัดการได้ในขณะที่ glmnet สามารถจัดการกับชุดข้อมูลขนาดใหญ่ของฉันได้ mpiktas ฉันต้องการหาคำตอบของ (Y-Xb) ^ 2 + L \ sum …

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

2
เหตุใดจึงใช้กลุ่มบ่วงบาศแทนสายบ่วง
ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้ เหตุใดจึงเลือกกลุ่มบาศกลุส ทำไมเส้นทางการแก้ปัญหาแบบกลุ่มแบบไม่ต่อเนื่องเป็นเส้นตรง

1
เส้นทางสัมประสิทธิ์ - การเปรียบเทียบของสันเขาบาศและการถดถอยสุทธิแบบยืดหยุ่น
ฉันต้องการเปรียบเทียบรุ่นที่เลือกกับสันหลัง, เชือกและยางยืด ภาพด้านล่างแสดงเส้นทางสัมประสิทธิ์โดยใช้ทั้ง 3 วิธี: สันเขา (รูป A, อัลฟา = 0), เชือก (รูป B; อัลฟา = 1) และตาข่ายยืดหยุ่น (รูป C; alpha = 0.5) วิธีการแก้ปัญหาที่ดีที่สุดขึ้นอยู่กับค่าแลมบ์ดาที่เลือกซึ่งเลือกจากการตรวจสอบข้าม เมื่อดูที่แปลงเหล่านี้ฉันคาดว่าตาข่ายยืดหยุ่น (รูปที่ C) จะแสดงผลการจัดกลุ่ม อย่างไรก็ตามมันไม่ชัดเจนในกรณีที่นำเสนอ เส้นทางสัมประสิทธิ์สำหรับ lasso และ elastic net นั้นคล้ายกันมาก อะไรคือสาเหตุของสิ่งนี้ มันเป็นเพียงความผิดพลาดในการเขียนโค้ดหรือไม่? ฉันใช้รหัสต่อไปนี้ใน R: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge …

2
LASSO เลือกตัวทำนายที่สัมพันธ์กันเมื่อใด
ฉันใช้แพ็คเกจ 'lars' ใน R ด้วยรหัสต่อไปนี้: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > …


2
เหตุใดการถดถอยของสันเขาจึงไม่สามารถตีความได้ดีกว่า LASSO
ฉันมีความคิดเกี่ยวกับข้อดีข้อเสียของการถดถอยสันและ LASSO แล้ว สำหรับ LASSO คำสั่งลงโทษ L1 จะให้ค่าสัมประสิทธิ์แบบเบาบางซึ่งสามารถดูได้ว่าเป็นวิธีการเลือกคุณลักษณะ อย่างไรก็ตามมีข้อ จำกัด บางประการสำหรับ LASSO หากคุณสมบัติมีความสัมพันธ์สูง LASSO จะเลือกหนึ่งในนั้นเท่านั้น นอกจากนี้สำหรับปัญหาที่ > LASSO จะเลือกพารามิเตอร์มากที่สุด (และคือจำนวนการสังเกตและพารามิเตอร์ตามลำดับ) สิ่งเหล่านี้ทำให้ LASSO สังเกตุว่าเป็นวิธีที่ไม่ดีในแง่ของความสามารถในการคาดการณ์เมื่อเทียบกับการถดถอยของสันเขาพีพีpnnnnnnnnnพีพีp สำหรับการถดถอยของสันเขามันให้การคาดการณ์ที่ดีกว่าโดยทั่วไป อย่างไรก็ตามความสามารถในการตีความไม่ดีเท่า LASSO คำอธิบายข้างต้นมักพบได้ในหนังสือเรียนในการเรียนรู้ของเครื่อง / การขุดข้อมูล อย่างไรก็ตามฉันยังคงสับสนเกี่ยวกับสองสิ่ง: หากเราทำให้ช่วงของคุณลักษณะเป็นปกติ (พูดระหว่าง 0 ถึง 1 หรือด้วยค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย) และเรียกใช้การถดถอยของสันเขาเรายังคงมีแนวคิดสำคัญของคุณลักษณะโดยการเรียงลำดับค่าสัมบูรณ์ของสัมประสิทธิ์ ค่าสัมประสิทธิ์สัมบูรณ์สูงสุดของสัมบูรณ์) แม้ว่าเราจะไม่ได้เลือกคุณสมบัติอย่างชัดเจน แต่การตีความก็ไม่ได้หายไปจากการถดถอยของสันเขา ในขณะเดียวกันเรายังสามารถบรรลุพลังการทำนายสูง ถ้าอย่างนั้นทำไมเราถึงต้องการ LASSO ฉันทำอะไรบางอย่างหายไปหรือเปล่า LASSO เป็นที่ต้องการเนื่องจากลักษณะการเลือกคุณสมบัติหรือไม่? เพื่อความเข้าใจของฉันเหตุผลที่เราต้องเลือกคุณสมบัติคือความสามารถในการพูดคุยทั่วไปและความสะดวกในการคำนวณ เพื่อความสะดวกในการคำนวณเราไม่ต้องการฟีดทั้งหมด 1 ล้านฟีเจอร์ในแบบจำลองของเราหากเราทำงาน …

2
ระเบียบและการทำให้เป็นมาตรฐานคืออะไร
ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=> พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method => ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้) ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้: คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ? เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง? ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

5
Recursive (ออนไลน์) อัลกอริธึมกำลังสองน้อยที่สุดที่ทำให้เป็นมาตรฐาน
ทุกคนสามารถชี้นำฉันไปในทิศทางของอัลกอริทึมแบบออนไลน์ (แบบเรียกซ้ำ) สำหรับการทำให้เป็นมาตรฐาน Tikhonov (กำลังสองน้อยที่สุดเป็นมาตรฐาน) ได้หรือไม่? ในการตั้งค่าออฟไลน์ฉันจะคำนวณβ^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYโดยใช้ชุดข้อมูลดั้งเดิมของฉันซึ่งพบλλλโดยใช้การตรวจสอบความถูกต้องแบบครอส n-fold ใหม่yyyค่าสามารถคาดการณ์ไว้สำหรับให้xxxใช้การ yy=xTβ^y=xTβ^y=x^T\hat\beta ในการตั้งค่าออนไลน์ฉันจะวาดจุดข้อมูลใหม่อย่างต่อเนื่อง ฉันจะอัปเดตβ^β^\hat\betaเมื่อฉันดึงตัวอย่างข้อมูลเพิ่มเติมใหม่โดยไม่ทำการคำนวณใหม่ทั้งหมดในชุดข้อมูลทั้งหมด (ต้นฉบับ + ใหม่)

2
GLM หลังจากการเลือกรุ่นหรือการทำให้เป็นมาตรฐาน
ฉันอยากจะถามคำถามนี้ในสองส่วน ทั้งสองจัดการกับโมเดลเชิงเส้นทั่วไป แต่ข้อตกลงแรกกับการเลือกรูปแบบและข้อตกลงอื่น ๆ ที่มีการทำให้เป็นมาตรฐาน ความเป็นมา:ฉันใช้โมเดล GLMs (แบบเชิงเส้นโลจิสติกส์การถดถอยแบบแกมม่า) สำหรับการทำนายและคำอธิบาย เมื่อฉันอ้างถึง " สิ่งปกติที่เกิดขึ้นกับการถดถอย " ฉันหมายถึงคำอธิบายด้วย (i) ช่วงความมั่นใจรอบค่าสัมประสิทธิ์ (ii) ช่วงความเชื่อมั่นรอบการทำนายและ (iii) การทดสอบสมมติฐานเกี่ยวกับการรวมกันเชิงเส้นของสัมประสิทธิ์เช่น " มีความแตกต่างระหว่างการรักษา A และการรักษา B หรือไม่ " คุณสูญเสียความสามารถในการทำสิ่งเหล่านี้อย่างถูกกฎหมายโดยใช้ทฤษฎีปกติภายใต้ข้อใดข้อหนึ่งต่อไปนี้หรือไม่? และถ้าเป็นเช่นนั้นสิ่งเหล่านี้จะดีสำหรับแบบจำลองที่ใช้สำหรับการทำนายที่บริสุทธิ์หรือไม่? I.เมื่อ GLM มีความเหมาะสมผ่านกระบวนการคัดเลือกแบบบางรุ่น (สำหรับรูปสมส่วนบอกขั้นตอนแบบขั้นตอนตาม AIC) ครั้งที่สอง เมื่อ GLM เหมาะสมผ่านวิธีการทำให้เป็นมาตรฐาน (พูดโดยใช้ glmnet ใน R) ความรู้สึกของฉันคือสำหรับฉันคำตอบคือในทางเทคนิคที่คุณควรใช้ bootstrap สำหรับ " สิ่งปกติที่ทำกับการถดถอย " แต่ไม่มีใครปฏิบัติตามนั้น เพิ่ม: …

2
พิกัดโคตรสำหรับ lasso หรือ elastic net
มีเอกสารหรือหนังสือที่ดีเกี่ยวกับการใช้โคตรประสานงานสำหรับ L1 (lasso) และ / หรือการทำให้เป็นระเบียบสุทธิแบบยืดหยุ่นสำหรับปัญหาการถดถอยเชิงเส้นหรือไม่?

4
อะไรทำให้บ่วงบาศไม่เสถียรสำหรับการเลือกคุณสมบัติ?
ในการตรวจจับแบบบีบอัดมีทฤษฎีบทรับประกันได้ว่า มีวิธีแก้ปัญหากระจัดกระจายc (ดูภาคผนวกสำหรับรายละเอียดเพิ่มเติม)cargmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc มีทฤษฎีบทที่คล้ายกันสำหรับบ่วงบาศหรือไม่? หากมีทฤษฎีบทดังกล่าวไม่เพียง แต่จะรับประกันความมั่นคงของบาศกัมมันตภาพรังสีเท่านั้น แต่มันยังให้การตีความที่มีความหมายมากขึ้นด้วย เชือกสามารถค้นพบเบาบางค่าสัมประสิทธิ์การถดถอยเวกเตอร์cccที่ใช้ในการสร้างการตอบสนองyyyโดยy=Xcy=Xcy = XcXc มีสองเหตุผลที่ฉันถามคำถามนี้: ฉันคิดว่า 'lasso เป็นคำตอบที่กระจัดกระจาย' ไม่ใช่คำตอบว่าทำไมใช้ lasso เพื่อเลือกคุณลักษณะเนื่องจากเราไม่สามารถบอกได้ว่าข้อดีของคุณสมบัติที่เราเลือกคืออะไร ฉันเรียนรู้ Lasso ที่มีชื่อเสียงในเรื่องความไม่แน่นอนในการเลือกคุณสมบัติ ในทางปฏิบัติเราต้องรันตัวอย่างบูตสแตรปเพื่อประเมินความเสถียร อะไรคือเหตุผลที่สำคัญที่สุดที่ทำให้เกิดความไม่แน่นอนนี้ ภาคผนวก: ได้รับXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)x_M) cccคือΩΩ\Omega -sparse vector ( Ω⩽MΩ⩽M\Omega \leqslant …

1
ทำความเข้าใจกับการถดถอยเชิงลบ
ฉันกำลังมองหาวรรณกรรมเกี่ยวกับการถดถอยเชิงลบสันเขา ในระยะสั้นมันเป็นลักษณะทั่วไปของการถดถอยเชิงเส้นโดยใช้เชิงลบในสูตรตัวประมาณ:กรณีในเชิงบวกมีทฤษฎีที่ดี: เป็นฟังก์ชั่นการสูญเสียเป็นข้อ จำกัด เป็น Bayes ก่อน ... แต่ฉันรู้สึกหายไปกับรุ่นเชิงลบที่มีเพียงสูตรข้างต้น มันจะมีประโยชน์สำหรับสิ่งที่ฉันทำ แต่ฉันไม่สามารถตีความได้อย่างชัดเจนบีตา = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yλλ\lambdaβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y. คุณรู้ข้อความเบื้องต้นเกี่ยวกับสันเขาเชิงลบหรือไม่? จะตีความได้อย่างไร?

1
การเลือกช่วงและความหนาแน่นของกริดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานใน LASSO
ฉันกำลังศึกษาLASSO (อย่างน้อยการหดตัวแบบสัมบูรณ์และผู้ดำเนินการคัดเลือก) ในเวลาเดียวกัน ฉันเห็นว่าค่าที่ดีที่สุดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานสามารถเลือกได้โดยการตรวจสอบความถูกต้องข้าม ฉันเห็นด้วยในการถดถอยของสันเขาและวิธีการมากมายที่ใช้การทำให้เป็นมาตรฐานเราสามารถใช้ CV เพื่อค้นหาพารามิเตอร์การทำให้เป็นมาตรฐานที่ดีที่สุด (การลงโทษ) ตอนนี้คำถามของฉันเกี่ยวกับค่าเริ่มต้นสำหรับขอบเขตบนและล่างของพารามิเตอร์และวิธีการกำหนดความยาวของลำดับ จะเฉพาะเจาะจงเช่นสมมติเรามีปัญหา Lasso และเราต้องการที่จะหาค่าที่ดีที่สุดสำหรับการลงโทษ\แล้วเราจะเลือกขอบเขตล่างและบนสำหรับอย่างไร และมีค่าเท่าไรที่แยกระหว่างสองค่า ? λ λ ∈ [ = ? , b = ? ] ( b - a )L o กรัมLฉันk อีลิตรฉันชั่วโมงo o d= ( y- x β)'( y- x β) + λ ∑ | β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) …

1
การเชื่อมต่อระหว่างการทำให้เป็นมาตรฐานและวิธีการคูณตัวคูณ lagrange คืออะไร?
เพื่อป้องกันไม่ให้คน overfitting คนเพิ่มระยะ normalization (สัดส่วนกับผลรวมกำลังสองของพารามิเตอร์ของแบบจำลอง) ด้วยพารามิเตอร์ normalizationไปยังฟังก์ชันต้นทุนของการถดถอยเชิงเส้น พารามิเตอร์นี้เหมือนกับตัวคูณ lagrange หรือไม่? การทำให้เป็นมาตรฐานเป็นเช่นเดียวกับวิธีการของตัวคูณ lagrange หรือไม่? หรือวิธีการเหล่านี้เชื่อมต่อกันอย่างไร? λλλ\lambdaλλ\lambda

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.