คำถามติดแท็ก regularization

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

5
สันเขาและลาสโซบรรทัดฐาน
โพสต์นี้ตามหลังอันนี้: ทำไมการประมาณสันถึงดีกว่า OLS โดยการเพิ่มค่าคงที่ในแนวทแยง นี่คือคำถามของฉัน: เท่าที่ฉันรู้แล้วการทำให้เป็นมาตรฐานของสันเขาใช้ -norm (ระยะทางแบบยูคลิด) แต่ทำไมเราถึงใช้สแควร์ของบรรทัดฐานนี้ (แอปพลิเคชันโดยตรงของจะส่งผลให้มีสแควร์รูทของผลรวมของเบต้ากำลังสอง)ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 เป็นการเปรียบเทียบเราไม่ทำเช่นนี้กับ LASSO ซึ่งใช้ไม่ต้องทำเป็นประจำ แต่นี่คือบรรทัดฐาน"ของจริง" (เพียงผลรวมของกำลังสองของค่าสัมบูรณ์สัมบูรณ์เบต้าและไม่ใช่กำลังสองของผลรวมนี้)ℓ 1ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1 มีคนช่วยฉันอธิบายไหม

1
บรรทัดฐานคืออะไรและเกี่ยวข้องกับการทำให้เป็นมาตรฐานหรือไม่
ฉันได้เห็นเอกสารจำนวนมากเกี่ยวกับการนำเสนอที่กระจัดกระจายเมื่อเร็ว ๆ นี้และส่วนใหญ่ใช้บรรทัดฐานและทำการย่อเล็กสุด คำถามของฉันคืออะไรบรรทัดฐานและบรรทัดฐานแบบผสมคืออะไร และเกี่ยวข้องกับการทำให้เป็นมาตรฐานได้อย่างไรℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ขอบคุณ

3
วิธีการใช้การทำให้เป็นมาตรฐาน L2 ไปยังจุดที่ว่างในพื้นที่?
นี่คือสิ่งที่ผมอ่านในหนังสือเอียน Goodfellow ของการเรียนรู้ลึก ในบริบทของเครือข่ายนิวรัล "การปรับค่าพารามิเตอร์ของพารามิเตอร์ L2 เป็นที่รู้กันทั่วไปว่าเป็นการลดน้ำหนักกลยุทธ์การทำให้เป็นมาตรฐานนี้ทำให้น้ำหนักใกล้เคียงกับแหล่งกำเนิด [... ] โดยทั่วไปเราสามารถทำให้ค่าพารามิเตอร์อยู่ใกล้กับจุดใด ๆ ในช่องว่าง "แต่มันเป็นเรื่องธรรมดามากที่จะทำให้พารามิเตอร์ของโมเดลเป็นศูนย์ (การเรียนรู้อย่างลึก Goodfellow และคณะ) ฉันแค่อยากรู้ ฉันเข้าใจว่าเพียงเพิ่มคำ normalizing ในฟังก์ชันต้นทุนของเราและด้วยการลดค่าใช้จ่ายทั้งหมดJJJเราสามารถส่งผลต่อพารามิเตอร์ของแบบจำลองให้มีขนาดเล็กลง: J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,Y)=L(Θ,X,Y)+λ||W||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} แต่เราจะใช้กลยุทธ์การทำให้เป็นมาตรฐานนี้ได้อย่างไรซึ่งจะนำพารามิเตอร์ไปสู่จุดใด ๆ (กล่าวว่าเราต้องการบรรทัดฐานมีแนวโน้มที่จะ 5)

2
อัตราความผิดพลาดเป็นฟังก์ชันนูนของแลมบ์ดาของพารามิเตอร์การทำให้เป็นมาตรฐานหรือไม่?
ในการเลือก lambda พารามิเตอร์การทำให้เป็นมาตรฐานใน Ridge หรือ Lasso วิธีที่แนะนำคือลองค่า lambda ที่แตกต่างกัน, วัดข้อผิดพลาดใน Validation Set และสุดท้ายเลือกค่าของ lambda ที่ส่งกลับข้อผิดพลาดต่ำสุด มันไม่ได้เป็นคลีตสำหรับฉันถ้าฟังก์ชั่น f (lambda) = error คือ Convex มันเป็นอย่างนี้ได้ไหม? นั่นคือเส้นโค้งนี้มีมากกว่าหนึ่ง minima ท้องถิ่น (ซึ่งจะบอกเป็นนัยว่าการหาข้อผิดพลาดขั้นต่ำในบางพื้นที่ของแลมบ์ดาไม่ได้จำกัดความเป็นไปได้ที่ในบางภูมิภาคอื่น ๆ จะมีแลมบ์ดาที่กลับมา คำแนะนำของคุณจะได้รับการชื่นชม

3
สามารถใช้เทคนิคการทำให้เป็นมาตรฐานในแบบจำลองเอฟเฟกต์แบบสุ่มได้หรือไม่?
โดยเทคนิคการทำให้เป็นปกติฉันหมายถึง lasso, ridge regression, elastic net และอื่น ๆ พิจารณารูปแบบการคาดการณ์เกี่ยวกับข้อมูลการดูแลสุขภาพที่มีข้อมูลด้านประชากรศาสตร์และข้อมูลการวินิจฉัยที่คาดการณ์ระยะเวลาการเข้าพักผู้ป่วยใน สำหรับบุคคลบางคนมีการสังเกต LOS หลายครั้ง (กล่าวคือมากกว่าหนึ่งตอนของ IP) ในช่วงระยะเวลาพื้นฐานที่สัมพันธ์กัน มันสมเหตุสมผลหรือไม่ที่จะสร้างตัวอย่างเช่นโมเดลการทำนายด้วยเน็ตยืดหยุ่นซึ่งมีคำศัพท์สุ่มดักจับผลกระทบสำหรับแต่ละคน?

4
Lasso fitting โดยการประสานงานโคตร: การใช้งานโอเพนซอร์ส? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว การใช้งานโอเพนซอร์ซอะไร - ในภาษาใด - มีอยู่ที่นั่นที่สามารถคำนวณเส้นทางการทำปฎิบัติการแบบ lasso สำหรับการถดถอยเชิงเส้นโดยการประสานงานโคตร? จนถึงตอนนี้ฉันรู้: glmnet scikits.learn มีอะไรอีกบ้าง?

1
LASSO ความสัมพันธ์ระหว่าง
ความเข้าใจของฉันเกี่ยวกับการถดถอย LASSO คือสัมประสิทธิ์การถดถอยถูกเลือกเพื่อแก้ปัญหาการย่อเล็กสุด: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t ในทางปฏิบัติสิ่งนี้ทำได้โดยใช้ตัวคูณลากรองจ์ทำให้เกิดปัญหาในการแก้ปัญหา minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 ความสัมพันธ์ระหว่างλλ\lambdaกับtttคืออะไร? วิกิพีเดียอย่างไม่ช่วยเหลือเพียงแค่ระบุว่า "ขึ้นอยู่กับข้อมูล" ทำไมฉันถึงแคร์ ประการแรกสำหรับความอยากรู้ทางปัญญา แต่ฉันก็กังวลเกี่ยวกับผลที่ตามมาสำหรับการเลือกλλ\lambdaโดยการตรวจสอบข้าม โดยเฉพาะถ้าฉันใช้การตรวจสอบความถูกต้องแบบครอส n-fold ฉันพอดีกับโมเดลที่แตกต่างกันกับ n พาร์ติชั่นต่าง ๆ ของข้อมูลการฝึกอบรมของฉัน จากนั้นฉันจะเปรียบเทียบความแม่นยำของโมเดลแต่ละรุ่นกับข้อมูลที่ไม่ได้ใช้สำหรับλλ\lambdaระบุ แต่\ lambdaเดียวกันλλ\lambdaหมายถึงข้อ จำกัด ที่แตกต่างกัน ( ttt ) สำหรับชุดย่อยที่แตกต่างกันของข้อมูล (เช่นt=f(λ)t=f(λ)t=f(\lambda)คือ "data dependent") ไม่ใช่ปัญหาการตรวจสอบข้ามที่ฉันต้องการแก้เพื่อค้นหาtttที่ให้การแลกเปลี่ยนอคติที่แม่นยำที่สุดหรือไม่ …

2
อะไรคือ“ เอกสารเร็ว” ที่สำคัญที่สุดเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน
ในหลายคำตอบที่ฉันได้เห็นผู้ใช้ CrossValidated แนะนำ OP ค้นหาเอกสารต้นใน Lasso, Ridge และ Elastic Net สำหรับลูกหลานแล้วน้ำเชื้อทำงานอย่างไรกับ Lasso, Ridge และ Elastic Net

1
สเกล Lasso มีขนาดเมทริกซ์การออกแบบอย่างไร
ถ้าฉันมีเมทริกซ์การออกแบบโดยที่คือจำนวนการสังเกตของมิติความซับซ้อนในการแก้สำหรับด้วย LASSO, wrtและd ? ผมคิดว่าคำตอบควรดูที่วิธีการหนึ่ง Lasso ย้ำเครื่องชั่งน้ำหนักที่มีพารามิเตอร์เหล่านี้มากกว่าวิธีการที่จำนวนซ้ำ (ลู่) เครื่องชั่งน้ำหนักจนกว่าคุณจะรู้สึกอย่างอื่น n วันที่β = argmin β 1X∈ Rn × dX∈Rn×dX\in\mathcal{R}^{n\times d}nnndddndβ^= argminβ12 n| | Xβ- y| |2+ λ | | β| |1β^=argminβ12n||Xβ-Y||2+λ||β||1\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}nnnddd ฉันได้อ่านนี้ซับซ้อนก่อนหน้า Lasso คำถามแต่ดูเหมือนว่าที่ขัดแย้งกับการอภิปรายเกี่ยวกับ glmnet ที่นี่และที่นี่ ผมทราบว่ามีขั้นตอนวิธีการจำนวนมากออกมีรวมทั้ง glmnet ของวิธีการ GLM แต่ผมกำลังเขียนกระดาษเกี่ยวกับการเปลี่ยนองค์ประกอบ Lasso ขั้นตอนวิธีการที่ผู้ปกครองและต้องการที่จะรวมถึงการอภิปรายเกี่ยวกับความซับซ้อน Lasso โดยทั่วไปโดยเฉพาะอย่างยิ่งกับdddและnnnnฉันต้องการทราบความซับซ้อนของ glmnet ในกรณีที่ไม่กระจัดกระจายพื้นฐาน แต่บทความที่อ้างถึงมีความสับสนเล็กน้อยเนื่องจากความซับซ้อนของอัลกอริทึมทั้งหมดไม่ชัดเจน

3
นักสถิติหมายถึงอะไรเมื่อพวกเขาพูดว่าเราไม่เข้าใจจริงๆว่า LASSO (การทำให้เป็นมาตรฐาน) ทำงานอย่างไร?
ฉันเคยไปพูดคุยเกี่ยวกับสถิติไม่กี่เมื่อเร็ว ๆ นี้เกี่ยวกับ Lasso (normalization) และจุดที่ทำให้ขึ้นคือเราไม่เข้าใจว่าทำไม Lasso ทำงานหรือทำไมมันทำงานได้ดี ฉันสงสัยว่าข้อความนี้หมายถึงอะไร เห็นได้ชัดว่าฉันเข้าใจว่าทำไม Lasso จึงใช้งานทางเทคนิคโดยการป้องกันการ overfitting ด้วยการหดตัวของพารามิเตอร์ แต่ฉันสงสัยว่ามีความหมายลึกซึ้งกว่าหลังคำสั่งดังกล่าว ไม่มีใครมีความคิดใด ๆ ขอบคุณ!

1
การจำลองผลลัพธ์สำหรับการถดถอยเชิงเส้น glmnet โดยใช้เครื่องมือเพิ่มประสิทธิภาพทั่วไป
ฐานะที่เป็นรัฐชื่อฉันพยายามที่จะทำซ้ำผลจากการ glmnet เชิงเส้นโดยใช้เพิ่มประสิทธิภาพ LBFGS lbfgsจากห้องสมุด เครื่องมือเพิ่มประสิทธิภาพนี้ช่วยให้เราสามารถเพิ่มคำศัพท์ปกติ L1 โดยไม่ต้องกังวลเกี่ยวกับความแตกต่างตราบใดที่ฟังก์ชันวัตถุประสงค์ของเรา (ไม่มีคำศัพท์ปกติของ L1) นั้นเป็นนูน ปัญหาการถดถอยเชิงเส้นแบบยืดหยุ่นสุทธิในกระดาษ glmnetนั้นได้รับโดย ที่X \ in \ mathbb {R} ^ {n \ times p}คือเมทริกซ์การออกแบบy \ in \ mathbb {R} ^ pเป็นเวกเตอร์ของการสังเกต\ alpha \ in [0,1]คือพารามิเตอร์เน็ตยืดหยุ่นและ\ lambda> 0คือพารามิเตอร์การทำให้เป็นมาตรฐาน โอเปอเรเตอร์\ Vert x \ Vert_pหมายถึงบรรทัดฐาน Lp ปกติminβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta …

4
การทำให้เป็นมาตรฐานทำให้กระจัดกระจายสำหรับเมทริกซ์สุ่ม
มันเป็นที่รู้จักกันดี (เช่นในด้านการตรวจจับอัด) ที่บรรทัดฐานคือ "sparsity ชักนำ" ในแง่ที่ว่าถ้าเราลดการทำงาน (สำหรับการแก้ไขเมทริกซ์และเวกเตอร์\ vec {ข} ) f_ {หัวใจ , \ vec {b}} (\ vec {x}) = \ | A \ vec {x} - \ vec {b} \ | _2 ^ 2 + \ lambda \ | \ vec {x} \ | _1สำหรับขนาดใหญ่พอ\ แลมบ์ดา> 0เราก็จะมีโอกาสในการเลือกหลาย, \ vec …

2
regularization
มีหลายวิธีในการดำเนินการทำให้เป็นมาตรฐาน - L0L0L_0, L1L1L_1และ L2L2L_2บรรทัดฐานตามบรรทัดฐานเช่น ตามFriedman Hastie & Tibsharani , regularizer ที่ดีที่สุดขึ้นอยู่กับปัญหา: คือธรรมชาติของฟังก์ชั่นเป้าหมายที่แท้จริง, พื้นฐานที่ใช้เฉพาะ, อัตราส่วนสัญญาณต่อเสียงรบกวน, และขนาดตัวอย่าง มีการวิจัยเชิงประจักษ์เปรียบเทียบวิธีการและประสิทธิภาพของวิธีการทำให้เป็นมาตรฐานแบบต่างๆหรือไม่?

4
การทำให้เป็นมาตรฐาน: ทำไมคูณด้วย 1 / 2m
ในบันทึกการบรรยาย 3 สัปดาห์ของชั้นเรียน Coursera Machine LearningของAndrew Ngจะมีการเพิ่มคำศัพท์ในฟังก์ชั่นค่าใช้จ่ายเพื่อทำให้เป็นมาตรฐาน J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 บันทึกการบรรยายพูดว่า: เรายังสามารถทำให้พารามิเตอร์ theta ทั้งหมดของเราเป็นปกติในการสรุปเดียว: minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθ2j]minθ 12m [∑i=1m(hθ(x(i))−y(i))2+λ ∑j=1nθj2]min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right] 12m12m\frac 1 {2m}ถูกนำไปใช้กับเทอม normalization ของเครือข่ายประสาท : จำได้ว่าฟังก์ชั่นค่าใช้จ่ายสำหรับการถดถอยโลจิสติกปกติ: J(θ)=−1m∑i=1m[y(i) log(hθ(x(i)))+(1−y(i)) log(1−hθ(x(i)))]+λ2m∑j=1nθ2jJ(θ)=−1m∑i=1m[y(i) log⁡(hθ(x(i)))+(1−y(i)) log⁡(1−hθ(x(i)))]+λ2m∑j=1nθj2J(\theta) = - …

1
RNN พร้อมการทำให้เป็นมาตรฐาน L2 หยุดเรียนรู้
ฉันใช้สองทิศทาง RNN เพื่อตรวจสอบเหตุการณ์ที่เกิดขึ้นไม่สมดุลกัน ชั้นบวกเป็น 100 ครั้งน้อยกว่าชั้นลบ ในขณะที่ไม่มีการใช้งานแบบปกติฉันสามารถได้รับความถูกต้อง 100% ในชุดรถไฟและ 30% สำหรับชุดการตรวจสอบ ฉันเปิดใช้งานการทำให้เป็นปกติ l2 และผลลัพธ์นั้นมีความแม่นยำเพียง 30% ในชุดรถไฟแทนการเรียนรู้ที่ยาวนานขึ้นและความแม่นยำ 100% ในชุดการตรวจสอบความถูกต้อง ฉันคิดว่าข้อมูลของฉันอาจเล็กเกินไปดังนั้นสำหรับการทดลองฉันรวมชุดรถไฟกับชุดทดสอบซึ่งฉันไม่เคยใช้มาก่อน สถานการณ์เหมือนกันกับฉันจะใช้การทำให้เป็นมาตรฐาน l2 ซึ่งฉันไม่ได้ตอนนี้ ฉันได้รับความแม่นยำ 30% สำหรับรถไฟ + การทดสอบและการตรวจสอบ ในการใช้หน่วยที่ถูกซ่อน 128 และ 80 เวลาในการทดลองที่กล่าวถึงเมื่อฉันเพิ่มจำนวนหน่วยที่ซ่อนอยู่เป็น 256 ฉันสามารถ overfit บนรถไฟ + ชุดทดสอบอีกครั้งเพื่อให้ได้ความถูกต้อง 100% แต่ยังคงมีเพียง 30% ในชุดการตรวจสอบ ฉันลองตัวเลือกมากมายสำหรับพารามิเตอร์และเกือบจะไม่มีผลลัพธ์ บางทีเอนโทรปีของการถ่วงน้ำหนักอาจทำให้เกิดปัญหาในการทดลองที่กำหนดน้ำหนักของชั้นบวกคือ 5 ในขณะที่การลองตุ้มน้ำหนักขนาดใหญ่ผลลัพธ์มักจะแย่ลงประมาณ 20% ของความแม่นยำ ฉันลองเซลล์ LSTM …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.