KKT เทียบกับสูตรที่ไม่มีข้อ จำกัด ของการถดถอยแบบ lasso


20

L1 ลงโทษการถดถอย (aka Lasso) จะถูกนำเสนอในสองสูตร ให้ทั้งสองฟังก์ชั่นวัตถุประสงค์เป็น ดังนั้นสูตรที่แตกต่างกันสองอย่างคือ อยู่ภายใต้ และ, การใช้เงื่อนไข Karush-Kuhn-Tucker (KKT) มันง่ายที่จะเห็นว่าเงื่อนไขคงที่สำหรับสูตรแรกนั้นเทียบเท่ากับการไล่ระดับสีของสูตรที่สองและตั้งค่าเท่ากับ 0 สิ่งที่ฉันไม่สามารถหาได้ เป็นวิธีที่เงื่อนไขความหย่อนสมบูรณ์ของสูตรแรก

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
argminβQ1
||β||1t,
argminβQ2.
λ(||β||1t)=0รับประกันว่าจะได้รับการตอบสนองด้วยวิธีการแก้ปัญหาในสูตรที่สอง

คำตอบ:


16

สูตรทั้งสองนั้นเทียบเท่ากันในแง่ที่ว่าทุกค่าของในสูตรแรกมีค่าของสำหรับสูตรที่สองซึ่งสูตรทั้งสองนั้นมี minimizerเดียวกันtλβ

นี่คือเหตุผล:

พิจารณาสูตร lasso: ปล่อยให้ minimizer เป็นและ ให้ขการเรียกร้องของฉันคือว่าถ้าคุณตั้งค่าในการกำหนดแรกแล้วการแก้ปัญหาของสูตรแรกยังจะ * นี่คือข้อพิสูจน์:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

พิจารณาสูตรแรก ถ้าเป็นไปได้ให้สูตรที่สองนี้มีทางออกเช่นนั้น (สังเกตเครื่องหมายน้อยกว่าอย่างเคร่งครัด) จากนั้นจึงง่ายที่จะเห็นว่าขัดแย้งกับข้อเท็จจริงที่ว่าเป็นวิธีแก้ปัญหาสำหรับบ่วง ดังนั้นวิธีการแก้สูตรแรกคือยัง *บีตา | | บีตา | | 1<| | β| | 1=( β )<F(β*)β*β*

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=bf(β^)<f(β)ββ

ตั้งแต่สภาพความสะเพร่าที่สมบูรณ์มีความพึงพอใจในการแก้ปัญหาจุด *β t=bβ

ดังนั้นเมื่อกำหนดสูตร lasso ด้วยคุณต้องสร้างสูตรแบบ จำกัด โดยใช้เท่ากับค่าของบรรทัดฐานของสารละลาย Lasso ในทางกลับกันเมื่อกำหนดสูตรด้วยคุณจะพบซึ่งวิธีแก้ปัญหาของ lasso จะเท่ากับโซลูชันของ formulation ที่ จำกัดλl 1 t λtl1tλ

(ถ้าคุณรู้เกี่ยวกับ subgradients คุณสามารถหานี้ได้โดยการแก้สมการ , โดยที่X T ( Y - X β * ) = λ Z * Z *| | β | | 1 )λXT(yXβ)=λzz||β||1)


1
ยอดเยี่ยม เมื่อคุณเห็นวิธีแก้ปัญหาคุณจะรู้สึกโง่ที่ไม่ไปอยู่ที่นั่นด้วยตนเอง ฉันถือว่าคุณหมายถึงในการค้นหาความขัดแย้งสมมติว่าเราพบเช่นนั้น ? | | บีตา | | 1<| | β| | 1=bβ^||β^||1<||β||1=b
goodepic

ลองตอบ flaggin ให้ถูกต้อง
bdeonovic

2
คุณช่วยอธิบายได้ไหมว่าทำไมf(β^)<f(β)
goofd

นี่พิสูจน์ได้ว่าวิธีแก้ปัญหาสำหรับสูตรแรกต้องมีค่า l1-norm ของ b ด้วย มันพิสูจน์ได้อย่างไรว่าคำตอบทั้งสองนั้นเหมือนกันจริง ๆ ?
broncoAbierto

1
นอกจากนี้ Lasso ไม่เคยมีวิธีการแก้ปัญหาที่ไม่ซ้ำกันดังนั้นเราจึงไม่สามารถอ้างถึงผืน arxiv.org/pdf/1206.0313.pdf อย่างไรก็ตามเราสามารถอ้างถึงชุดย่อเล็กสุดและแสดงให้เห็นว่าต้องเป็นของชุดนั้น β^β
broncoAbierto

3

ฉันคิดว่าความคิดของ elexhobby สำหรับหลักฐานนี้เป็นสิ่งที่ดี แต่ฉันไม่คิดว่ามันถูกต้องทั้งหมด

ในการแสดงให้เห็นว่าการมีอยู่ของโซลูชันสำหรับสูตรแรกเช่นนั้นนำไปสู่ความขัดแย้งเราสามารถสรุปได้เฉพาะความจำเป็นของไม่ว่า * β<β* β=β* β =β*β^β^<ββ^=ββ^=β

ฉันขอแนะนำให้เราดำเนินการดังนี้:

เพื่อความสะดวกขอแสดงเป็นโดยและสูตรแรกและสูตรที่สองตามลำดับ สมมติว่ามีวิธีการแก้ปัญหาที่ไม่ซ้ำกันกับ b ให้มีวิธีการแก้ปัญหา * จากนั้นเรามี(มันไม่สามารถจะมากขึ้นเพราะข้อ จำกัด ) และดังนั้นจึง*) หากดังนั้นไม่ใช่ทางออกสำหรับซึ่งขัดแย้งกับสมมติฐานของเรา ถ้าP 2 P 2 β *β *= P 1 ββ *ββ *( β ) ( β * ) ( β ) < F ( β * ) β * P 2( β )P1P2P2ββ=bP1β^ββ^βf(β^)f(β)f(β^)<f(β)βP2β = β *f(β^)=f(β)ดังนั้นเนื่องจากเราคิดว่าวิธีแก้ปัญหาจะไม่ซ้ำกันβ^=β

อย่างไรก็ตามอาจเป็นกรณีที่ Lasso มีวิธีแก้ปัญหาหลายอย่าง โดย lemma 1 จากarxiv.org/pdf/1206.0313.pdfเรารู้ว่าโซลูชันเหล่านี้ทั้งหมดมี -norm ที่เหมือนกัน (และมีค่าขั้นต่ำเท่ากันแน่นอน) เรากำหนดบรรทัดฐานนั้นเป็นข้อ จำกัด สำหรับและดำเนินการต่อP 11P1

แสดงว่า Let 's โดยชุดของโซลูชั่นเพื่อกับS ให้มีวิธีการแก้ปัญหาS จากนั้นเรามีและดังนั้นจึงS ถ้าสำหรับ (และดังนั้นสำหรับพวกเขาทั้งหมด) แล้วซึ่งขัดแย้งกับสมมติฐานของเรา ถ้าสำหรับบางแล้วไม่ได้เป็นชุดของการแก้P 2β = β S P 1 βS ββ β S ( β ) ( β ) β S ( β ) = ( β ) β S βSSP2β=b βSP1β^Sβ^ββSf(β^)f(β)βSf(β^)=f(β)βSβ^Sβ S S P 2 P 1 S P 1 P 2f(β^)<f(β)βSSP2P_2ดังนั้นวิธีการแก้ปัญหาทุกอยู่ในคือวิธีการแก้ปัญหาใด ๆ ในการนอกจากนี้ยังมีวิธีการแก้P_2มันจะยังคงอยู่เพื่อพิสูจน์ว่าการเกื้อหนุนก็เช่นกันP1SP1P2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.