การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน


15

ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ

1- องค์ประกอบของการเรียนรู้ทางสถิติ

2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ

ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่?

ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น

นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

ป้อนคำอธิบายรูปภาพที่นี่



1
Lasso ไม่ได้เป็นรูปแบบของการถดถอยสัน
ซีอาน

@jeza คุณช่วยอธิบายสิ่งที่ขาดหายไปในคำตอบของฉันได้ไหม มันเกิดขึ้นจริงทั้งหมดสามารถได้รับเกี่ยวกับการเชื่อมต่อ
Royi

@jeza, คุณเจาะจงไหม? หากคุณไม่ทราบแนวคิดของลากรองจ์สำหรับปัญหาที่ จำกัด ก็ยากที่จะให้คำตอบที่กระชับ
Royi

1
@jeza ปัญหาการปรับให้เหมาะสมแบบ จำกัด สามารถแปลงเป็นการปรับให้เหมาะสมที่สุดของฟังก์ชัน Lagrangian / เงื่อนไข KKT (ดังที่อธิบายไว้ในคำตอบปัจจุบัน) หลักการนี้มีคำอธิบายง่ายๆที่แตกต่างกันมากมายทั่วอินเทอร์เน็ต คำอธิบายเพิ่มเติมของการพิสูจน์มีความจำเป็นในทิศทางใด? คำอธิบาย / หลักฐานของตัวคูณ / ฟังก์ชันลากรองจ์, คำอธิบาย / หลักฐานว่าปัญหานี้เป็นกรณีของการเพิ่มประสิทธิภาพที่เกี่ยวข้องกับวิธีการของลากรองจ์, ความแตกต่าง KKT / ลากรองจ์, คำอธิบายของหลักการของการทำให้เป็นมาตรฐานเป็นต้น?
Sextus Empiricus

คำตอบ:


19

Ridge Ridge Regression ( Tikhonov Normalization ) แบบคลาสสิคมอบให้โดย:

argminx12xy22+λx22

การอ้างสิทธิ์ข้างต้นคือปัญหาดังต่อไปนี้เทียบเท่า:

argminx12xy22subject tox22t

ลองกำหนดเป็นทางออกที่ดีที่สุดของปัญหาแรกและเป็นทางออกที่ดีที่สุดของปัญหาที่สอง x^x~

การเรียกร้องของความเท่าเทียมกันหมายความว่า{x} คือคุณสามารถมีคู่ของและวิธีแก้ปัญหาเหมือนกันt,λ0:x^=x~เสื้อλ 0
tλ0

เราจะหาคู่ได้อย่างไร
ด้วยการแก้ปัญหาและดูคุณสมบัติของการแก้ปัญหา
ปัญหาทั้งสองนี้มีความนูนและราบเรียบดังนั้นจึงควรทำให้สิ่งต่าง ๆ ง่ายขึ้น

การแก้ปัญหาสำหรับปัญหาแรกนั้นเกิดขึ้น ณ จุดที่การไล่ระดับสีหายไปซึ่งหมายความว่า:

x^y+2λx^=0

เงื่อนไข KKTของปัญหารัฐสอง:

x~y+2μx~=0

และ

μ(x~22t)=0

สมการสุดท้ายแสดงให้เห็นว่าหรือtμ=0x~22=t

ให้ความสนใจว่าสมการฐาน 2 นั้นเทียบเท่ากัน
ถ้าและสมการทั้งสองไว้ x^=x~μ=λ

ดังนั้นหมายความว่าในกรณีหนึ่งต้องตั้งซึ่งหมายความว่าสำหรับขนาดใหญ่เพียงพอเพื่อให้ทั้งสองจะเป็นหนึ่งเทียบเท่าต้องตั้ง0y22tμ=0tλ=0

ในอีกกรณีหนึ่งเราควรหาโดยที่:μ

yt(I+2μI)1(I+2μI)1y=t

นี่เป็นพื้นเมื่อx~22=t

เมื่อคุณพบว่าโซลูชั่นจะชนกันμ

เกี่ยวกับกรณี (LASSO) มันใช้ได้กับแนวคิดเดียวกัน ข้อแตกต่างเพียงอย่างเดียวคือเราไม่ได้ปิดการแก้ปัญหาดังนั้นการเชื่อมต่อจึงมีความซับซ้อนมากขึ้นL1

มีลักษณะที่คำตอบของฉันที่StackExchange รอการตรวจสอบ Q291962และStackExchange การประมวลผลสัญญาณ Q21730 - ความสำคัญของการλในเกณฑ์การแสวงหา

หมายเหตุ
สิ่งที่เกิดขึ้นจริง?
ในปัญหาที่เกิดขึ้นทั้งสองพยายามที่จะใกล้เคียงที่สุดเท่าที่จะY ในกรณีแรกจะหายไปในเทอมแรก (ระยะทาง ) และในกรณีที่สองมันจะทำให้ฟังก์ชันวัตถุประสงค์หายไป ความแตกต่างก็คือในกรณีแรกที่หนึ่งจะต้องสมดุลนอร์มของxเมื่อมีความสมดุลสูงหมายความว่าคุณควรทำให้เล็กลง ในกรณีที่สองมีกำแพงคุณจะนำเข้ามาใกล้กับxy
x=yL2
L2xλx
xyจนกว่าคุณจะชนกำแพงซึ่งเป็นข้อ จำกัด ในเรื่องของนอร์ม (โดย ) ถ้ากำแพงนั้นมากพอ (ค่าสูงของ ) และมากพอขึ้นอยู่กับบรรทัดฐานของดังนั้นฉันไม่มีความหมายเหมือนกับมีความเกี่ยวข้องเฉพาะกับมูลค่าของมันคูณด้วยค่าเริ่มต้นของเริ่มมีความหมาย การเชื่อมต่อที่แน่นอนคือโดยลากรองจ์ดังกล่าวข้างต้นt
tyλy

ทรัพยากร

ฉันพบกระดาษนี้วันนี้ (03/04/2019):

  • ประมาณความแข็งสำหรับการเรียนของเบาบางปัญหาการเพิ่มประสิทธิภาพ

ไม่เทียบเท่าหมายความว่า \ lambda และ \ t ควรเหมือนกัน เพราะฉันไม่สามารถเห็นได้ว่าในการพิสูจน์ ขอบคุณ
jeza

@jeza, ขณะที่ผมเขียนข้างต้นสำหรับการใด ๆมี (ไม่จำเป็นต้องเท่ากับแต่การทำงานของและข้อมูลที่ ) เช่นว่าการแก้ปัญหาของทั้งสองรูปแบบจะเหมือนกัน tλ0tty
Royi

3
@jeza ทั้ง & tเป็นพารามิเตอร์ฟรีที่นี่ เมื่อคุณระบุแล้วให้พูดว่าλเพื่อให้ได้คำตอบที่เหมาะสมที่สุด แต่tยังคงเป็นพารามิเตอร์อิสระ ดังนั้น ณ จุดนี้การเรียกร้องคือสามารถมีค่าบางส่วนของtที่จะให้ทางออกที่ดีที่สุดเหมือนกัน มีเป็นหลักข้อ จำกัด ในสิ่งที่จะต้อง; มันไม่ใช่ว่ามันจะต้องมีฟังก์ชั่นคงที่ของเช่นหรืออะไรบางอย่าง λtλtttλt=λ/2
gung - Reinstate Monica

@ Royi ฉันอยากรู้ว่า 1- ทำไมสูตรของคุณถึงมี (1/2) ในขณะที่สูตรที่เป็นปัญหาไม่ได้? 2- กำลังใช้ KKT เพื่อแสดงความเท่าเทียมกันของสองสูตรใช่หรือไม่ 3- ถ้าใช่ฉันยังมองไม่เห็นความเท่าเทียมกัน ฉันไม่แน่ใจ แต่สิ่งที่ฉันคาดหวังที่จะเห็นก็คือหลักฐานที่แสดงสูตรหนึ่ง = สูตรสอง
jeza

1. ง่ายขึ้นเมื่อคุณแยกความแตกต่างของคำว่า LS คุณสามารถย้ายรูปแบบของฉันไปที่ OPโดยแยกเป็นสองส่วน 2. ฉันใช้ KKT สำหรับคดีที่สอง กรณีแรกไม่มีข้อ จำกัด ดังนั้นคุณสามารถแก้ไขได้ 3. ไม่มีสมการรูปแบบปิดระหว่างพวกเขา ฉันแสดงตรรกะและวิธีการสร้างกราฟที่เชื่อมต่อพวกเขา แต่ตามที่ฉันเขียนมันจะเปลี่ยนสำหรับแต่ละ (ขึ้นอยู่กับข้อมูล) λ Yλλy
Royi

9

วิธีการที่จะเข้าใจสิ่งที่เกิดขึ้นคือการเริ่มต้นด้วยเวอร์ชันข้อ จำกัด (สมการ 3.42 ในคำถาม) และแก้ไขได้ง่ายกว่าทางคณิตศาสตร์ แต่อาจใช้งานได้ง่ายขึ้นและแก้ปัญหาโดยใช้วิธีการ "Lagrange Multiplier" ( https: //en.wikipedia .org / wiki / Lagrange_multiplierหรือข้อความแคลคูลัสหลายตัวแปรที่คุณชื่นชอบ) เพียงจำไว้ว่าในแคลคูลัสเป็นเวกเตอร์ของตัวแปร แต่ในกรณีของเราxเป็นค่าคงที่และβคือเวกเตอร์ตัวแปร เมื่อคุณใช้เทคนิคคูณ Lagrange คุณจบลงด้วยสมการแรก (3.41) (หลังจากทิ้งพิเศษ- λ Tซึ่งเป็นญาติอย่างต่อเนื่องเพื่อลดและสามารถละเลย)xxβλt

นอกจากนี้ยังแสดงให้เห็นว่าสิ่งนี้ใช้ได้กับเชือกและข้อ จำกัด อื่น ๆ


8

มันอาจคุ้มค่าที่จะอ่านเกี่ยวกับความเป็นคู่ของลากรองจ์และความสัมพันธ์ที่กว้างขึ้น (ในเวลาที่เท่ากัน) ระหว่าง:

  • การเพิ่มประสิทธิภาพอยู่ภายใต้ข้อ จำกัด hard (ie inviolable)
  • การเพิ่มประสิทธิภาพด้วยบทลงโทษสำหรับการละเมิดข้อ จำกัด

คำนำด่วนสำหรับคู่ที่อ่อนแอและคู่ที่แข็งแกร่ง

สมมติว่าเรามีฟังก์ชั่นของตัวแปรสองตัว สำหรับการใด ๆxและy ที่เรามี:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

ตั้งแต่ที่ถือสำหรับการใด ๆxและy ที่ก็ยังถือได้ว่า:x^y^

maxyminxf(x,y)minxmaxyf(x,y)

นี้เป็นที่รู้จักกันเป็นคู่ที่อ่อนแอ ในบางสถานการณ์คุณยังมีความเป็นคู่ที่แข็งแกร่ง (หรือที่เรียกว่าคุณสมบัติของจุดอาน ):

maxyminxf(x,y)=minxmaxyf(x,y)

เมื่อความเป็นคู่ที่แข็งแกร่งดำรงอยู่การแก้ปัญหาสองอย่างก็ช่วยแก้ปัญหาเบื้องต้นได้เช่นกัน พวกเขารู้สึกเหมือนมีปัญหาเดียวกัน!

ลากรองจ์สำหรับการถดถอยสัน จำกัด

ให้ฉันนิยามฟังก์ชันเป็น:L

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

การตีความขั้นต่ำสุดของ Lagrangian

ปัญหาการถดถอยของสันเขาที่มีข้อ จำกัด อย่างหนักคือ:

minbmaxλ0L(b,λ)

คุณสามารถเลือกเพื่อลดวัตถุประสงค์รู้ทันว่าหลังจากที่จะเลือกฝ่ายตรงข้ามของคุณจะตั้งλไปไม่มีที่สิ้นสุดหากคุณเลือกดังกล่าวว่าΣ P J = 12 J >เสื้อbbλbj=1pbj2>t

ถ้ามีค่าความเป็นคู่ที่แข็งแกร่ง (ซึ่งเป็นเช่นนี้เนื่องจากเงื่อนไขของ Slater นั้นเป็นที่พอใจสำหรับ ) คุณก็จะได้ผลลัพธ์เดียวกันโดยกลับคำสั่ง:t>0

maxλ0minbL(b,λ)

ที่นี่ฝ่ายตรงข้ามของคุณเลือกก่อน ! จากนั้นคุณเลือกเพื่อลดวัตถุประสงค์แล้วรู้ทางเลือกของλ ส่วนmin b L ( b , λ ) (ถ่ายλตามที่กำหนด) เทียบเท่ากับรูปแบบที่ 2 ของปัญหาการถดถอยแบบสันλ bλminbL(b,λ)λ

อย่างที่คุณเห็นนี่ไม่ได้เป็นผลเฉพาะการถดถอยของสัน มันเป็นแนวคิดที่กว้างขึ้น

อ้างอิง

(ฉันเริ่มโพสต์นี้ตามคำอธิบายที่ฉันอ่านจาก Rockafellar)

Rockafellar, RT, การวิเคราะห์นูน

คุณอาจตรวจสอบการบรรยาย 7และการบรรยาย 8จากหลักสูตรของ Prof. Stephen Boyd เกี่ยวกับการทำให้เหมาะสมที่สุด


โปรดทราบว่าคำตอบของคุณสามารถขยายไปยังฟังก์ชั่นนูนใด ๆ
81235

6

พวกเขาจะไม่เทียบเท่า

สำหรับปัญหาการย่อเล็กสุดที่ จำกัด

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

เราแก้โดยลดกว่า Lagrangean ที่สอดคล้องกันb

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

ที่นี่เป็นผูกได้รับจากภายนอกλ 0เป็น Karush-Kuhn-Tucker คูณไม่ใช่เชิงลบและ ทั้งเวกเตอร์เบต้าและλจะได้รับการพิจารณาอย่างดีที่สุดผ่านขั้นตอนการลดได้รับเสื้อ tλ0 λ t

การเปรียบเทียบและ eq ( 3.41 )ในโพสต์ของ OP นั้นปรากฏว่าสามารถใช้ตัวประมาณค่าริดจ์เป็นโซลูชันสำหรับ (2)(3.41)

(3)minb{Λ+λt}

เนื่องจากในฟังก์ชั่นที่จะย่อขนาดดูเหมือนจะเป็นลากรองจ์ของปัญหาการย่อขนาดที่มีข้อ จำกัด รวมกับคำศัพท์ที่ไม่เกี่ยวข้องกับbดังนั้นจึงดูเหมือนว่าทั้งสองวิธีนั้นมีความเท่าเทียมกัน ...(3)b

แต่สิ่งนี้ไม่ถูกต้องเพราะในการถดถอยของริดจ์เราลดค่ากำหนดให้λ > 0น้อยกว่า แต่ในเลนส์ของปัญหาการลดข้อ จำกัด สมมติλ > 0เรียกเก็บเงื่อนไขที่ว่าข้อ จำกัด มีผลผูกพันเช่นว่าb λ>0λ>0

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.