ความถดถอยของสะพานและตาข่ายยืดหยุ่นต่างกันอย่างไรเป็นคำถามที่น่าสนใจเนื่องจากได้รับการลงโทษที่คล้ายกัน นี่เป็นวิธีหนึ่งที่เป็นไปได้ สมมติว่าเราแก้ปัญหาการถดถอยของสะพาน จากนั้นเราสามารถถามได้ว่าวิธีการแก้ปัญหายืดหยุ่นสุทธิจะแตกต่างกันอย่างไร การดูการไล่ระดับสีของฟังก์ชันการสูญเสียทั้งสองสามารถบอกอะไรเราได้บ้าง
การถดถอยของสะพาน
Say เป็นเมทริกซ์ที่มีค่าของตัวแปรอิสระ ( nคะแนน x dมิติ) yคือเวกเตอร์ที่มีค่าของตัวแปรตามและwคือเวกเตอร์น้ำหนักXndyw
ฟังก์ชั่นการสูญเสียบอลบรรทัดฐานของน้ำหนักที่มีขนาดλ ข :ℓqλb
Lb(w)=∥y−Xw∥22+λb∥w∥qq
ความลาดชันของฟังก์ชั่นการสูญเสียคือ:
∇wLb(w)=−2XT(y−Xw)+λbq|w|∘(q−1)sgn(w)
หมายถึงพลัง Hadamard (เช่นองค์ประกอบที่ฉลาด) ซึ่งให้เวกเตอร์ที่องค์ประกอบ iเป็นv∘ciฉัน sgn ( w )เป็นฟังก์ชันสัญญาณ (นำไปใช้กับองค์ประกอบของแต่ละ w ) การไล่ระดับสีอาจจะไม่ได้กำหนดที่ศูนย์ค่าของบางส่วนคิวvcisgn(w)wq
ยืดหยุ่นสุทธิ
ฟังก์ชั่นการสูญเสียคือ:
Le(w)=∥y−Xw∥22+λ1∥w∥1+λ2∥w∥22
นี่เป็นการลงโทษ บรรทัดฐานของน้ำหนักที่มีขนาด λ 1และ ℓ 2บรรทัดฐานที่มีขนาด λ 2 กระดาษตาข่ายยืดหยุ่นเรียกการย่อขนาดฟังก์ชั่นการสูญเสียนี้ว่า 'ตาข่ายยืดหยุ่นไร้เดียงสา' เพราะจะทำให้น้ำหนักลดลงเป็นสองเท่า พวกเขาอธิบายขั้นตอนการปรับปรุงที่มีการลดน้ำหนักในภายหลังเพื่อชดเชยการหดตัวสองเท่า แต่ฉันจะวิเคราะห์รุ่นที่ไร้เดียงสา นั่นเป็นข้อแม้ที่ต้องจำไว้ℓ1λ1ℓ2λ2
ความลาดชันของฟังก์ชั่นการสูญเสียคือ:
∇wLe(w)=−2XT(y−Xw)+λ1sgn(w)+2λ2w
การไล่ระดับสีไม่ได้กำหนดที่ศูนย์เมื่อเพราะค่าสัมบูรณ์ในการลงโทษℓ 1นั้นไม่สามารถเปลี่ยนแปลงได้λ1>0ℓ1
เข้าใกล้
สมมติว่าเราเลือกตุ้มน้ำหนักที่แก้ปัญหาการถดถอยของสะพาน นี่หมายความว่าการลดทอนการถดถอยของสะพานเป็นศูนย์ ณ จุดนี้:w∗
∇wLb(w∗)=−2XT(y−Xw∗)+λbq|w∗|∘(q−1)sgn(w∗)=0⃗
ดังนั้น:
2XT(y−Xw∗)=λbq|w∗|∘(q−1)sgn(w∗)
เราสามารถทดแทนนี้ในการไล่ระดับสีสุทธิยืดหยุ่นที่จะได้รับการแสดงออกสำหรับการไล่ระดับสีสุทธิยืดหยุ่นที่ * โชคดีที่มันไม่ขึ้นกับข้อมูลโดยตรงอีกต่อไป:w∗
∇wLe(w∗)=λ1sgn(w∗)+2λ2w∗−λbq|w∗|∘(q−1)sgn(w∗)
มองไปที่การไล่ระดับสีสุทธิยืดหยุ่นที่บอกเรา: ระบุว่าสะพานถดถอยได้แปรสภาพน้ำหนักW *วิธีที่จะความขาดแคลนสุทธิยืดหยุ่นในการเปลี่ยนแปลงน้ำหนักเหล่านี้หรือไม่w∗w∗
มันทำให้เรามีทิศทางในท้องถิ่นและขนาดของการเปลี่ยนแปลงที่ต้องการเพราะจุดไล่ระดับในทิศทางของการขึ้นชันและฟังก์ชันการสูญเสียจะลดลงเมื่อเราเคลื่อนที่ในทิศทางตรงกันข้ามกับการไล่ระดับสี การไล่ระดับสีอาจไม่ชี้ตรงไปยังสารละลายตาข่ายยืดหยุ่น แต่เพราะฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นนูนท้องถิ่นทิศทาง / ขนาดให้บางข้อมูลเกี่ยวกับวิธีการแก้ปัญหาสุทธิยืดหยุ่นจะแตกต่างจากการแก้ปัญหาสะพานถดถอย
กรณีที่ 1: ตรวจสอบสติ
( ) การถดถอยของบริดจ์ในกรณีนี้เทียบเท่ากับกำลังสองน้อยที่สุดธรรมดา (OLS) เนื่องจากขนาดการลงโทษเป็นศูนย์ สุทธิยืดหยุ่นเทียบเท่าถดถอยสันเพราะเพียง ℓ 2บรรทัดฐานมือสัมผัส พล็อตต่อไปนี้แสดงวิธีแก้ปัญหาการถดถอยแบบบริดจ์ที่แตกต่างกันλb=0,λ1=0,λ2=1ℓ2
พล็อตด้านซ้าย: การไล่ระดับสีสุทธิแบบยืดหยุ่นเทียบกับน้ำหนักการถดถอยของสะพานในแต่ละมิติ
แกน x แสดงส่วนประกอบหนึ่งชุดของตุ้มน้ำหนัก เลือกโดยการถดถอยสะพาน แกน Y หมายถึงองค์ประกอบที่สอดคล้องกันของการไล่ระดับสีสุทธิยืดหยุ่นประเมิน W * โปรดทราบว่าน้ำหนักนั้นมีหลายมิติ แต่เราเพียงแค่ดูน้ำหนัก / การไล่ระดับสีตามมิติเดียวw∗w∗
พล็อตที่ถูกต้อง: การเปลี่ยนแปลงเน็ตยืดหยุ่นกับน้ำหนักการถดถอยของสะพาน (2d)
แต่ละจุดหมายถึงชุดน้ำหนัก 2d เลือกโดยการถดถอยสะพาน สำหรับแต่ละทางเลือกของ w ∗เวกเตอร์จะถูกพล็อตชี้ไปในทิศทางตรงข้ามกับการไล่ระดับสีอีลาสติกยืดหยุ่นโดยมีขนาดตามสัดส่วนของการไล่ระดับสี นั่นคือเวกเตอร์ที่พล็อตแสดงให้เห็นว่าตาข่ายยืดหยุ่นต้องการเปลี่ยนวิธีแก้ปัญหาการถดถอยของสะพานอย่างไรw∗w∗
พล็อตเหล่านี้แสดงให้เห็นว่าเมื่อเทียบกับการถดถอยของสะพาน (OLS ในกรณีนี้) ตาข่ายยืดหยุ่น (การถดถอยแนวสันในกรณีนี้) ต้องการลดน้ำหนักให้เป็นศูนย์ ปริมาณการหดตัวที่ต้องการจะเพิ่มขึ้นตามขนาดของน้ำหนัก หากน้ำหนักเป็นศูนย์โซลูชันจะเหมือนกัน การตีความคือว่าเราต้องการที่จะย้ายไปในทิศทางตรงข้ามกับการไล่ระดับสีเพื่อลดฟังก์ชั่นการสูญเสีย ตัวอย่างเช่นพูดการถดถอยของสะพานมารวมกันเป็นค่าบวกสำหรับหนึ่งในน้ำหนัก ณ จุดนี้การยืดตัวแบบยืดหยุนสุทธิเป็นบวกดังนั้นตาข่ายยืดตัวจึงต้องการลดน้ำหนักนี้ หากใช้การไล่ระดับสีแบบไล่ระดับเราจะทำขั้นตอนตามสัดส่วนในการไล่ระดับสี (แน่นอนว่าเราไม่สามารถใช้การไล่ระดับสีแบบทางเทคนิคเพื่อแก้ปัญหาตาข่ายยืดหยุ่นได้เนื่องจากความไม่สามารถหาอนุพันธ์ได้ที่ศูนย์
กรณีที่ 2: การจับคู่สะพาน & ตาข่ายยืดหยุ่น
( ) ฉันเลือกพารามิเตอร์การลงโทษสะพานเพื่อให้ตรงกับตัวอย่างจากคำถาม ฉันเลือกพารามิเตอร์เครือข่ายอีลาสติกเพื่อให้ได้โทษสุทธิที่ดีที่สุดที่ตรงกัน ที่นี่วิธีการจับคู่ที่ดีที่สุดจากการกระจายน้ำหนักโดยเฉพาะเราพบว่าพารามิเตอร์การลงโทษสุทธิยืดหยุ่นที่ลดความแตกต่างกำลังสองที่คาดไว้ระหว่างสะพานและการลงโทษสุทธิแบบยืดหยุ่น:q=1.4,λb=1,λ1=0.629,λ2=0.355
minλ1,λ2E[(λ1∥w∥1+λ2∥w∥22−λb∥w∥qq)2]
ที่นี่ฉันคิดว่าน้ำหนักกับรายการทั้งหมดที่ดึงมาจากการกระจายเครื่องแบบใน (เช่นภายใน hypercube เป็นศูนย์กลางที่จุดกำเนิด) พารามิเตอร์ยืดหยุ่นสุทธิที่ดีที่สุดที่ตรงกันนั้นมีขนาดใกล้เคียงกับ 2 ถึง 1,000 มิติ แม้ว่าพวกเขาจะไม่ได้มีความไวต่อมิติ แต่พารามิเตอร์ที่ดีที่สุดที่ตรงกันจะขึ้นอยู่กับขนาดของการกระจาย[−2,2]
ปรับพื้นผิว
นี่คือโครงร่างของการลงโทษรวมที่กำหนดโดยการถดถอยของสะพาน ( ) และตาข่ายยืดหยุ่นที่ดีที่สุดที่ตรงกัน ( λ 1 = 0.629 , λ 2q=1.4,λb=100λ1=0.629,λ2=0.355
พฤติกรรมการไล่ระดับสี
เราสามารถดูต่อไปนี้:
- ให้w∗jj
- |w∗j|<0.25
- |w∗j|≈0.25
- 0.25<|w∗j|<1.31
- |w∗j|≈1.31
- |w∗j|>1.31
qλbλ1,λ2
กรณีที่ 3: สะพานที่ไม่ตรงกัน & สุทธิยืดหยุ่น
(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ2ℓ1ℓ2
Relative to bridge regression, elastic net wants to shrink small weights toward zero and increase larger weights. There's a single set of weights in each quadrant where the bridge regression and elastic net solutions coincide, but elastic net wants to move away from this point if the weights differ even slightly.
(q=1.2,λb=1,λ1=173,λ2=0.816). In this regime, the bridge penalty is more similar to an ℓ1 penalty (although bridge regression may not produce sparse solutions with q>1, as mentioned in the elastic net paper). I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like ridge regression (ℓ2 penalty greater than ℓ1 penalty).
Relative to bridge regression, elastic net wants to grow small weights and shrink larger weights. There's a point in each quadrant where the bridge regression and elastic net solutions coincide, and elastic net wants to move toward these weights from neighboring points.