แสดงความเท่าเทียมกันระหว่างบรรทัดฐานการถดถอยปกติและบรรทัดฐานการถดถอยแบบ จำกัด การใช้ KKT


12

ตามที่อ้างอิงเล่ม 1 , เล่ม 2และกระดาษ

มีการกล่าวถึงว่ามีความเท่าเทียมกันระหว่างการถดถอยแบบปกติ (Ridge, LASSO และ Elastic Net) และสูตรข้อ จำกัด

ฉันยังดูCross Validated 1และCross Validated 2แต่ฉันไม่สามารถเห็นคำตอบที่ชัดเจนแสดงให้เห็นว่าการเทียบเท่าหรือตรรกะ

คำถามของฉันคือ

จะแสดงความเท่าเทียมกันอย่างไรโดยใช้ Karush – Kuhn – Tucker (KKT)

สูตรต่อไปนี้ใช้สำหรับการถดถอยแบบริดจ์

สันเขา

บันทึก

คำถามนี้ไม่ใช่การบ้าน มันเป็นเพียงเพื่อเพิ่มความเข้าใจของฉันในหัวข้อนี้

UPDATE

ฉันยังไม่มีความคิด


ทำไมคุณต้องมีมากกว่า 1 คำตอบ? คำตอบปัจจุบันปรากฏขึ้นเพื่อตอบคำถามอย่างครอบคลุม หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการเพิ่มประสิทธิภาพConvex Optimization Lieven Vandenberghe และ Stephen P. Boyd เป็นจุดเริ่มต้นที่ดี
Sycorax พูดว่า Reinstate Monica

@Sycorax ขอบคุณสำหรับความคิดเห็นของคุณและหนังสือที่คุณให้ฉัน คำตอบนั้นไม่ชัดเจนสำหรับฉันและฉันไม่สามารถขอคำอธิบายเพิ่มเติมได้ ดังนั้นคำตอบมากกว่าหนึ่งข้อให้ฉันเห็นมุมมองและวิธีการอธิบายที่แตกต่างกัน
jeza

@jeza, คำตอบของฉันหายไปคืออะไร?
Royi

1
โปรดพิมพ์คำถามของคุณเป็นข้อความอย่าเพิ่งโพสต์ภาพ (ดู ที่นี่ )
gung - Reinstate Monica

คำตอบ:


10

คำตอบทางเทคนิคเพิ่มเติมเนื่องจากปัญหาการปรับให้เหมาะสมแบบ จำกัด สามารถเขียนเป็นตัวคูณของ Lagrange ได้ โดยเฉพาะLagrangian ที่เกี่ยวข้องกับปัญหาการหาค่าเหมาะที่สุดแบบ จำกัด ได้รับโดย โดยที่เป็นตัวทวีคูณที่ถูกเลือกเพื่อสนองข้อ จำกัด ของปัญหา เงื่อนไขการสั่งซื้อครั้งแรก (ซึ่งเพียงพอเนื่องจากคุณทำงานกับฟังก์ชั่นนูนที่เหมาะสม) สำหรับปัญหาการปรับให้เหมาะสมนี้สามารถรับได้โดยการแยกลากรองจ์ที่เกี่ยวข้องกับ

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβและการตั้งค่าตราสารอนุพันธ์เท่ากับ 0 (มันค่อนข้างจะเหมาะสมมากกว่าเนื่องจากส่วน LASSO มีจุดที่แตกต่างกัน แต่มีวิธีการจากการวิเคราะห์นูนเพื่อสรุปอนุพันธ์เพื่อให้เงื่อนไขลำดับแรกยังคงทำงานอยู่) เป็นที่ชัดเจนว่าเงื่อนไขการสั่งซื้อครั้งแรกเหล่านี้เหมือนกับเงื่อนไขการสั่งซื้อครั้งแรกของปัญหาที่ไม่มีข้อ จำกัด ที่คุณจดบันทึกไว้

อย่างไรก็ตามฉันคิดว่ามันมีประโยชน์ที่จะเห็นว่าทำไมโดยทั่วไปกับปัญหาการเพิ่มประสิทธิภาพเหล่านี้มักจะเป็นไปได้ที่จะคิดเกี่ยวกับปัญหาไม่ว่าจะผ่านเลนส์ของปัญหาการปรับให้เหมาะสมแบบ จำกัด หรือผ่านเลนส์ของปัญหาที่ไม่มีข้อ จำกัด โดยสมมติว่าเรามีปัญหาการปรับให้เหมาะสมแบบไม่มีเงื่อนไขของรูปแบบต่อไปนี้: เราสามารถลองแก้ปัญหาการเพิ่มประสิทธิภาพนี้ได้โดยตรง แต่บางครั้งมันอาจทำให้รู้สึกถึงปัญหานี้ ย่อย โดยเฉพาะอย่างยิ่งมันไม่ยากที่จะเห็นว่า ดังนั้นสำหรับค่าคงที่ของ

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(และสมมติว่าฟังก์ชั่นที่ได้รับการปรับแต่งให้บรรลุออพติม่าได้จริง) เราสามารถเชื่อมโยงกับค่าที่แก้ปัญหาการปรับให้เหมาะสมภายนอก สิ่งนี้ทำให้เรามีการแมปจากปัญหาการปรับให้เหมาะสมแบบไม่ จำกัด ไปจนถึงปัญหาที่มีข้อ จำกัด ในการตั้งค่าเฉพาะของคุณเนื่องจากทุกอย่างทำหน้าที่อย่างดีสำหรับการถดถอยแบบยืดหยุ่นการแมปนี้ควรเป็นแบบหนึ่งต่อหนึ่งดังนั้นจึงเป็นประโยชน์ที่จะสามารถสลับระหว่างบริบททั้งสองนี้ขึ้นอยู่กับว่าเป็นประโยชน์กับแอปพลิเคชันใด โดยทั่วไปความสัมพันธ์ระหว่างปัญหาที่ถูก จำกัด และไม่มีข้อ จำกัด นี้อาจมีพฤติกรรมที่ไม่ดีนัก แต่อาจเป็นประโยชน์ในการพิจารณาว่าคุณสามารถย้ายไปมาระหว่างปัญหาที่ถูก จำกัด และไม่มีข้อ จำกัด ได้อย่างไรt

แก้ไข: ตามที่ร้องขอฉันจะรวมการวิเคราะห์ที่เป็นรูปธรรมมากขึ้นสำหรับการถดถอยของสันเขาเพราะมันรวบรวมความคิดหลักในขณะที่หลีกเลี่ยงการจัดการกับเทคนิคที่เกี่ยวข้องกับการลงโทษ LASSO ที่ไม่แตกต่างกัน จำได้ว่าเรากำลังแก้ปัญหาการเพิ่มประสิทธิภาพ (ในสัญกรณ์เมทริกซ์):

argminβ{i=1NyixiTβ}s.t.||β||2M

ให้เป็นโซลูชัน OLS (เช่นเมื่อไม่มีข้อ จำกัด ) จากนั้นฉันจะเน้นไปที่กรณีที่(หากมีสิ่งนี้อยู่) เนื่องจากมิฉะนั้นข้อ จำกัด นั้นไม่น่าสนใจเนื่องจากไม่มีการผูกมัด ลากรองจ์สำหรับปัญหานี้สามารถเขียนได้ จากนั้นเราจะได้รับเงื่อนไขการสั่งซื้อที่แตกต่างกัน : ซึ่งเป็นเพียงระบบสมการเชิงเส้นและสามารถแก้ไขได้: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
สำหรับทางเลือกของตัวคูณบาง\ตัวทวีคูณนั้นถูกเลือกเพื่อทำให้ข้อ จำกัด เป็นจริงเช่นเราต้องการμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
ที่มีอยู่ตั้งแต่ LHS คือเนื่องใน\สมการนี้ให้การแมปที่ชัดเจนจากตัวคูณถึงข้อ จำกัด ,ด้วย เมื่อ RHS มีอยู่แล้วและ การทำแผนที่นี้สอดคล้องกับสิ่งที่ค่อนข้างใช้งานง่าย ทฤษฎีบทซองบอกเราว่าμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)สอดคล้องกับการลดลงเล็กน้อยในข้อผิดพลาดที่เราได้รับจากการพักผ่อนเล็ก ๆ ของข้อ จำกัดMสิ่งนี้อธิบายได้ว่าทำไมเมื่อสอดคล้องกับ. เมื่อข้อ จำกัด ไม่มีผลผูกพันไม่มีค่าในการผ่อนคลายอีกต่อไปซึ่งเป็นสาเหตุที่ตัวคูณหายตัวไปMμ0M||βOLS||


คุณช่วยกรุณาให้รายละเอียดคำตอบอย่างละเอียดทีละขั้นตอนกับตัวอย่างที่เป็นประโยชน์หากเป็นไปได้
jeza

ขอบคุณมากทำไมคุณไม่พูดถึง KKT? ฉันไม่คุ้นเคยกับเรื่องนี้ดังนั้นปฏิบัติกับฉันในฐานะนักเรียนมัธยมปลาย
jeza

เงื่อนไข KKT ในกรณีนี้เป็นลักษณะทั่วไปของ "เงื่อนไขการสั่งซื้อครั้งแรก" ฉันพูดถึงโดยแยกความแตกต่างของลากรองจ์และตั้งค่าอนุพันธ์เท่ากับ 0 เนื่องจากในตัวอย่างนี้ข้อ จำกัด ที่มีความเสมอภาคเราไม่ต้องการเงื่อนไข KKT ใน เต็มโดยทั่วไป ในกรณีที่ซับซ้อนมากขึ้นสิ่งที่เกิดขึ้นคือความเท่าเทียมกันบางอย่างข้างต้นกลายเป็นอสมการและตัวทวีคูณกลายเป็น 0 สำหรับข้อ จำกัด ไม่มีผลผูกพัน ตัวอย่างเช่นนี่คือสิ่งที่เกิดขึ้นเมื่อในด้านบน M>||βOLS||
stats_model

3

มีการวิเคราะห์ที่ดีโดยเป็นstats_modelในคำตอบของเขา

ฉันพยายามตอบคำถามที่คล้ายกันที่หลักฐานของสูตรเทียบเท่าของริดจ์ถดถอย

ฉันจะใช้วิธี Hand On เพิ่มเติมสำหรับกรณีนี้
ลองดูการทำแผนที่ระหว่างและใน 2 รุ่นtλ

ขณะที่ฉันเขียนและสามารถดูได้จากstats_modelในการวิเคราะห์ของเขาการทำแผนที่ขึ้นอยู่กับข้อมูล ดังนั้นเราจะเลือกการรับรู้ปัญหาที่เฉพาะเจาะจง แต่รหัสและการร่างภาพการแก้ปัญหาจะเพิ่มสัญชาตญาณให้กับสิ่งที่เกิดขึ้น

เราจะเปรียบเทียบโมเดล 2 แบบต่อไปนี้:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

สมมติว่าเป็นโซลูชันของโมเดลที่ทำให้เป็นมาตรฐานและให้เป็นโซลูชันของโมเดลที่มีข้อ จำกัดx^x~

เรากำลังมองหาที่ทำแผนที่จากที่จะดังกล่าวว่า{x} มองในการแก้ปัญหาของฉันที่จะแก้สำหรับนอร์ม จำกัด แควน้อยหนึ่งจะได้เห็นว่าการแก้ข้อ จำกัด รุ่นเกี่ยวข้องกับการแก้ Regularized รุ่นและการหาที่ตรงกับ (รหัสที่เกิดขึ้นจริงจะนำเสนอในแควน้อยกับยุคลิด ( ) ข้อ จำกัด ทั่วไป )tλx^=x~
λtL2

ดังนั้นเราจะเรียกใช้แก้เหมือนกันและสำหรับแต่ละเราจะแสดงที่ดีที่สุด\tλ

แก้โดยทั่วไปแก้:

argλλsubject to(ATA+2λI)1ATb22t=0

ดังนั้นนี่คือเมทริกซ์ของเรา:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

และนี่คือเวกเตอร์ของเรา:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

นี่คือการทำแผนที่:

ป้อนคำอธิบายรูปภาพที่นี่

ที่สามารถมองเห็นข้างต้นสำหรับค่าสูงพอพารามิเตอร์ตามที่คาดไว้tλ=0

ซูมเข้าสู่ช่วง [0, 10]:

ป้อนคำอธิบายรูปภาพที่นี่

รหัสเต็มมีอยู่ในStackExchange Cross Validated Q401212 GitHub Repository ของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.