คำถามติดแท็ก regularization

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

1
ทำไม glmnet ใช้ตาข่ายยืดหยุ่น“ ไร้เดียงสา” จากกระดาษต้นฉบับของ Zou & Hastie
ต้นฉบับกระดาษสุทธิยืดหยุ่นZou & Hastie (2005) กูและการเลือกตัวแปรผ่านสุทธิยืดหยุ่นแนะนำฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นสำหรับการถดถอยเชิงเส้น (ที่นี่ผมถือว่าตัวแปรทั้งหมดเป็นศูนย์กลางและมีขนาดหน่วยความแปรปรวน): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,แต่เรียกมันว่า "netive elastic net" พวกเขาเป็นที่ถกเถียงกันอยู่ว่ามันทำการหดตัวสองครั้ง (lasso และสัน) มีแนวโน้มที่จะหดตัว - และสามารถปรับปรุงได้โดย rescaling แก้ปัญหาผลลัพธ์ดังนี้:β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta.พวกเขาให้ข้อโต้แย้งทางทฤษฎีและหลักฐานการทดลองว่าสิ่งนี้นำไปสู่ประสิทธิภาพที่ดีขึ้น อย่างไรก็ตามglmnetกระดาษต่อมาฟรีดแมน, Hastie, & Tibshirani (2010) เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทางโคตรพิกัดไม่ได้ใช้การลดขนาดนี้และมีเชิงอรรถสั้น ๆ ว่า Zou และ Hastie (2005) เรียกว่าการลงโทษนี้ตาข่ายยืดหยุ่นไร้เดียงสาและต้องการรุ่นที่ได้รับการช่วยเหลือซึ่งพวกเขาเรียกว่าตาข่ายยืดหยุ่น เราแยกความแตกต่างนี้ตรงนี้ ไม่มีคำอธิบายเพิ่มเติมใด ๆ (หรือในตำราเรียน …

3
ที่มาของคำว่า "การทำให้เป็นมาตรฐาน"
เมื่อฉันแนะนำแนวคิดให้กับนักเรียนของฉันฉันมักจะพบว่ามันสนุกที่จะบอกพวกเขาว่าคำศัพท์มาจากที่ไหน (ตัวอย่างเช่น "การถดถอย" เป็นคำที่มีต้นกำเนิดที่น่าสนใจ) ฉันไม่สามารถเปลี่ยนประวัติ / พื้นหลังของคำว่า "การทำให้เป็นมาตรฐาน" ในการเรียนรู้ทางสถิติ / เครื่อง ดังนั้นสิ่งที่เป็นที่มาของคำว่ากู ?

2
เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?
ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBBBBBiBiB_i ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?

6
ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ
ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

3
เหตุใดจึงใช้การประมาณแบบ Lasso ในการประมาณ OLS กับชุดย่อยของตัวแปรแบบ Lasso
k βลิตรs s o = ( β ลิตรs s o 1 , β ลิตรs s o 2 , . . . , β ลิตรL(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) เรารู้ว่าเป็น การประเมินแบบเอนเอียงดังนั้นทำไมเรายังคงใช้เป็นทางออกสุดท้ายแทนที่จะเป็น 'สมเหตุสมผล' มากขึ้น\ hat {\ beta} ^ {new} = \ left (\ hat {\ beta} _ {1: k} ^ {ใหม่}, 0, ... , 0 \ …

3
การตีความการทำให้เป็นสันเป็นแนวในการถดถอย
ฉันมีคำถามหลายข้อเกี่ยวกับบทลงโทษริดจ์ในบริบทกำลังสองน้อยที่สุด: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) การแสดงออกแสดงให้เห็นว่าเมทริกซ์ความแปรปรวนร่วมของ X หดตัวลงในเมทริกซ์แนวทแยงซึ่งหมายความว่า (สมมติว่าตัวแปรเป็นมาตรฐานก่อนขั้นตอน) ความสัมพันธ์ระหว่างตัวแปรอินพุตจะลดลง การตีความนี้ถูกต้องหรือไม่ 2) ถ้ามันเป็นแอพพลิเคชั่นการหดตัวทำไมมันไม่ได้ถูกกำหนดในบรรทัดของสมมติว่าเราสามารถ จำกัด แลมบ์ดาให้อยู่ในช่วง [0,1] ด้วยการทำให้เป็นมาตรฐาน .(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3) อะไรที่เป็นมาตรฐานสำหรับเพื่อให้สามารถ จำกัด ช่วงมาตรฐานเช่น [0,1]λλ\lambda 4) การเพิ่มค่าคงที่ในแนวทแยงจะมีผลต่อค่าลักษณะเฉพาะทั้งหมด มันจะดีกว่าไหมถ้าจะโจมตีเฉพาะค่าเอกฐานหรือค่าเอกฐาน นี่เทียบเท่ากับการใช้ PCA กับ X และการรักษาส่วนประกอบหลักบน N ก่อนการถดถอยหรือมีชื่อแตกต่างกัน (เนื่องจากไม่ได้แก้ไขการคำนวณความแปรปรวนร่วมแบบครอส) 5) เราสามารถทำให้ค่าความแปรปรวนร่วมเป็นประจำหรือใช้อย่างใดอย่างหนึ่งหรือมีความหมายβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ที่ขนาดเล็กจะลดความแปรปรวนร่วม เห็นได้ชัดว่าสิ่งนี้ช่วยลด …

5
องค์ประกอบหลักด้านบนจะรักษาพลังการคาดการณ์ของตัวแปรตาม (หรือนำไปสู่การทำนายที่ดีกว่า) ได้อย่างไร?
สมมติว่าผมทำงานถดถอย X ทำไมโดยการเลือกด้านบนkส่วนประกอบหลักการของXไม่รูปแบบการรักษาอำนาจของตนในการทำนายY ?Y∼XY∼XY \sim XkkkXXXYYY ผมเข้าใจว่าจากมิติการลดจุด / คุณลักษณะการเลือกมุมมองถ้าเป็น eigenvectors ของเมทริกซ์ความแปรปรวนของXกับด้านบนkค่าลักษณะเฉพาะแล้วX วี1 , X โวลต์ 2 . . X v kเป็นองค์ประกอบหลักkอันดับแรกที่มีความแปรปรวนสูงสุด เราสามารถลดจำนวนฟีเจอร์เป็นkและรักษาพลังการทำนายส่วนใหญ่ไว้ได้ตามที่ฉันเข้าใจv1,v2,...vkv1,v2,...vkv_1, v_2, ... v_kXXXkkkXv1,Xv2...XvkXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kkkkkkk แต่ทำไมทำบนส่วนประกอบรักษาอำนาจการพยากรณ์ในY ?kkkYYY ถ้าเราพูดถึงทั่วไป OLS มีเหตุผลที่จะชี้ให้เห็นว่าถ้าไม่มีคุณลักษณะZ ฉันมีความแปรปรวนสูงสุดแล้วZ ฉันมีอำนาจมากที่สุดในการทำนายYY∼ZY∼ZY \sim ZZiZiZ_iZiZiZ_iYYY อัปเดตหลังจากเห็นความคิดเห็น:ฉันเดาว่าฉันเคยเห็นตัวอย่างของการใช้ PCA จำนวนมากเพื่อการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นแล้วประเด็นของมิติลดลงคืออะไร?

2
มันเหมาะสมหรือไม่ที่จะรวม PCA และ LDA
สมมติว่าฉันมีชุดข้อมูลสำหรับงานการจัดหมวดหมู่ทางสถิติภายใต้การดูแลเช่นผ่านตัวจําแนกของ Bayes ชุดข้อมูลนี้ประกอบด้วย 20 ฟีเจอร์และฉันต้องการต้มให้เหลือ 2 ฟีเจอร์โดยใช้เทคนิคการลดขนาดเช่นการวิเคราะห์ส่วนประกอบหลัก (PCA) และ / หรือการวิเคราะห์เชิงเส้น (LDA) เทคนิคทั้งสองกำลังฉายข้อมูลลงในพื้นที่ย่อยขนาดเล็ก: ด้วย PCA ฉันจะหาทิศทาง (ส่วนประกอบ) ที่เพิ่มความแปรปรวนในชุดข้อมูล (โดยไม่คำนึงถึงคลาสฉลาก) และด้วย LDA ฉันจะมีส่วนประกอบที่ขยายระหว่าง - คลาสแยก ตอนนี้ฉันกำลังสงสัยว่าอย่างไรและทำไมเทคนิคเหล่านี้สามารถรวมกันและถ้ามันทำให้รู้สึก ตัวอย่างเช่น: แปลงชุดข้อมูลผ่าน PCA และฉายลงบนพื้นที่ว่างสองมิติใหม่ Transform (ชุด PCA-transformed) ชุดข้อมูลที่ผ่าน LDA เป็นค่าสูงสุด การแยกชั้นเรียน หรือ ข้ามขั้นตอน PCA และใช้ส่วนประกอบ 2 อันดับแรกจาก LDA หรือชุดค่าผสมอื่น ๆ ที่เหมาะสม

4
L1 ถดถอยประมาณค่ามัธยฐานในขณะที่ประมาณการถดถอย L2 หมายถึงอะไร
ดังนั้นฉันจึงถูกถามคำถามที่มาตรการกลาง L1 (เช่น Lasso) และ L2 (เช่นการถดถอยสัน) ประเมิน คำตอบคือ L1 = ค่ามัธยฐานและ L2 = ค่าเฉลี่ย มีเหตุผลแบบนี้หรือไม่? หรือว่าจะต้องมีการกำหนดทางพีชคณิต? ถ้าเป็นเช่นนั้นฉันจะทำยังไงต่อ

2
ทำไมแลมบ์ดา“ ภายในข้อผิดพลาดมาตรฐานเดียวจากค่าต่ำสุด” จึงเป็นค่าที่แนะนำสำหรับแลมบ์ดาในการถดถอยแบบตาข่ายแบบยืดหยุ่น?
ฉันเข้าใจว่าแลมบ์ดามีบทบาทอย่างไรในการถดถอยแบบยืดหยุ่น และฉันสามารถเข้าใจได้ว่าเหตุใดจึงเลือก lambda.min ค่าของ lambda ที่ลดข้อผิดพลาดที่ตรวจสอบข้ามได้ คำถามของฉันอยู่ที่ไหนในวรรณคดีสถิติมันแนะนำให้ใช้ lambda.1se นั่นคือค่าของแลมบ์ดาที่ผิดพลาดลดขนาด CV บวกข้อผิดพลาดมาตรฐานหนึ่ง ? ฉันดูเหมือนจะไม่พบการอ้างอิงที่เป็นทางการหรือแม้แต่เหตุผลว่าทำไมสิ่งนี้จึงมักมีคุณค่าอย่างมาก ฉันเข้าใจว่ามันเป็นกฎเกณฑ์ที่เข้มงวดยิ่งขึ้นและจะทำให้พารามิเตอร์หดตัวลงสู่ศูนย์ แต่ฉันไม่แน่ใจว่าเงื่อนไขใดที่ lambda.1se เป็นตัวเลือกที่ดีกว่า lambda.min มีคนช่วยอธิบายได้ไหม

1
การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น
ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1L1L_1 ) และ Ridge ( L2L2L_2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ≥1γ≥1\gamma \geq 1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็น∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}{1} นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน …

2
ทำไม Laplace จึงผลิตสารละลายแบบเบาบาง?
ฉันดูวรรณกรรมเกี่ยวกับการทำให้เป็นระเบียบและมักจะเห็นย่อหน้าที่เชื่อมโยงการควบคุม L2 กับ Gaussian ก่อนและ L1 กับ Laplace โดยมีศูนย์เป็นศูนย์ ฉันรู้ว่านักบวชเหล่านี้มีหน้าตาเป็นอย่างไร แต่ฉันไม่เข้าใจว่ามันแปลอย่างไรเช่นตุ้มน้ำหนักในตัวแบบเชิงเส้น ใน L1 ถ้าฉันเข้าใจอย่างถูกต้องเราคาดหวังว่าการแก้ปัญหาแบบกระจัดกระจายนั่นคือน้ำหนักบางส่วนจะถูกผลักจนเหลือศูนย์ และใน L2 เราจะได้น้ำหนักเล็ก ๆ แต่ไม่ให้น้ำหนักเป็นศูนย์ แต่ทำไมมันเกิดขึ้น? โปรดแสดงความคิดเห็นหากฉันต้องการให้ข้อมูลเพิ่มเติมหรือชี้แจงเส้นทางการคิดของฉัน

2
“ การถดถอยอันดับที่ลดลง” คืออะไรเกี่ยวกับ?
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันไม่สามารถเข้าใจได้ว่าส่วนที่ 3.7 "การหดตัวและการเลือกหลายผลลัพธ์" นั้นเกี่ยวกับอะไร มันพูดเกี่ยวกับ RRR (การถดถอยลดอันดับ) และฉันสามารถเข้าใจได้ว่าหลักฐานเป็นเรื่องเกี่ยวกับโมเดลเชิงเส้นหลายตัวแปรแบบทั่วไปที่ไม่ทราบค่าสัมประสิทธิ์ นั่นเป็นสิ่งเดียวที่ฉันเข้าใจ คณิตศาสตร์ที่เหลืออยู่นั้นเกินกว่าฉัน มันไม่ได้ช่วยให้ผู้เขียนพูดว่า 'ใคร ๆ ก็สามารถแสดง' และทิ้งสิ่งต่าง ๆ ไว้เป็นแบบฝึกหัดได้ ใครช่วยกรุณาอธิบายสิ่งที่เกิดขึ้นที่นี่อย่างสังหรณ์ใจ? บทนี้ควรพูดถึงวิธีการใหม่ ๆ หรือไม่? หรืออะไร?

3
ทำไม Lars และ Glmnet จึงเสนอวิธีแก้ปัญหาต่าง ๆ สำหรับ Lasso?
ฉันต้องการเข้าใจแพ็คเกจ R Larsและดีกว่าGlmnetซึ่งใช้เพื่อแก้ปัญหา Lasso: (สำหรับตัวอย่างpตัวแปรและNดูwww.stanford.edu/~hastie/Papers/glmnet.pdfหน้า 3)m ฉันn( β0β) ∈ Rp + 1[ 12 NΣi = 1ยังไม่มีข้อความ( yผม- β0- xTผมβ)2+ λ | | β| |ล.1]ม.ผมn(β0β)∈Rพี+1[12ยังไม่มีข้อความΣผม=1ยังไม่มีข้อความ(Yผม-β0-xผมTβ)2+λ||β||ล.1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]พีพีpยังไม่มีข้อความยังไม่มีข้อความN ดังนั้นฉันจึงใช้ทั้งชุดของเล่นเดียวกัน น่าเสียดายที่ทั้งสองวิธีไม่ได้ให้วิธีแก้ไขปัญหาเดียวกันสำหรับการป้อนข้อมูลเดียวกัน ไม่มีใครมีความคิดที่แตกต่างมาจากไหน? ฉันได้ผลลัพธ์ดังนี้: หลังจากสร้างข้อมูล (8 ตัวอย่าง, 12 คุณสมบัติ, การออกแบบ Toeplitz, ทุกอย่างที่อยู่กึ่งกลาง) ฉันคำนวณเส้นทาง Lasso ทั้งหมดโดยใช้ Lars จากนั้นฉันใช้ Glmnet …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.