การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น


22

ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1 ) และ Ridge ( L2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร

ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษβjγγ=1γ=2

Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็นλ2β2+λ1β1{1}

นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน ( pคือพลังของระยะทาง Minkowski ):

หน่วยวงกลมสำหรับพลังต่าง ๆ ของระยะทาง Minkowski

p=1สอดคล้องกับ LASSO, p=2กับสันเขาและp=1.4ถึงสะพานที่เป็นไปได้หนึ่งแห่ง ยืดหยุ่นสุทธิถูกสร้างขึ้นมีน้ำหนักเท่ากันในL1และL2ลงโทษ ตัวเลขเหล่านี้มีประโยชน์ในการระบุช่องว่างตัวอย่างเช่น (สะพานใดขาดอย่างชัดเจนขณะที่ Elastic Net เก็บรักษาไว้จาก LASSO)

ดังนั้น Bridge ที่มี1<γ<2เปรียบเทียบกับ Elastic Net เกี่ยวกับการทำให้เป็นมาตรฐาน (นอกเหนือจาก sparsity) ได้อย่างไร ฉันมีความสนใจเป็นพิเศษในการเรียนรู้แบบมีผู้ควบคุมดังนั้นการอภิปรายเกี่ยวกับการเลือกคุณลักษณะ / การถ่วงน้ำหนักเป็นประเด็นที่เกี่ยวข้อง การโต้เถียงทางเรขาคณิตก็ยินดีต้อนรับเช่นกัน

บางทีที่สำคัญกว่านี้คือ Elastic Net เป็นที่ต้องการมากกว่าในกรณีนี้หรือไม่?


[1] Fu, WJ (1998) การถดถอยที่ถูกปรับ: สะพานเทียบกับบ่วงบาศ สมุดรายวันของสถิติการคำนวณและกราฟิก, 7 (3), 397-416


แก้ไข: มีคำถามนี้วิธีการตัดสินใจว่าจะใช้มาตรการลงโทษที่ใช้? คำแนะนำทั่วไปหรือกฎทั่วไปของหนังสือเรียนที่กล่าวถึง LASSO, Ridge, Bridge และ Elastic Net แต่ไม่มีความพยายามที่จะเปรียบเทียบพวกเขา


4
มีเพียงเรื่องเดียวที่เกี่ยวข้อง แต่ถ้าลงโทษตามปกติคือการประมาณค่า MAP ของการถดถอยแบบเบย์พร้อมกับ Laplace Priors แบบสัมประสิทธิ์กับค่าสัมประสิทธิ์และเป็นแบบเดียวกันสำหรับ Priors แบบเกาส์เซียนฉันสงสัยว่าการลงโทษแบบสะพานเทียบเท่ากับ Subbotin ก่อน ... stats.stackexchange.com/questions/201038/…L 2L1L2
Sycorax พูดว่า Reinstate Monica

@RichardHardy ไม่มีความจำเป็นที่จะเขียนเชือกในเมืองหลวงทั้งหมดดูที่ความคิดเห็นของฉันที่นี่
อะมีบาพูดว่า Reinstate Monica

2
โปรดทราบว่า Bridge regression อนุญาตให้ซึ่งให้การถดถอยแบบไม่นูน โดยเฉพาะอย่างยิ่งเมื่อพยายามเลือกกลุ่มของตัวแปรโดยเฉพาะอย่างยิ่งจากข้อมูลที่กระจัดกระจาย หรือโดยทั่วไปคุณอาจมีกลุ่มของโควาเรียส์ที่กำหนดไว้ล่วงหน้าซึ่งคุณจะทำให้ปกติเพื่อให้ไม่มีกลุ่มใดที่มีขนาดใหญ่และจากนั้นทำให้สัมประสิทธิ์กลุ่มเดี่ยวเป็นมาตรฐานเพื่อให้ได้ sparsity คือถ้าคุณเขียนโดยที่คุณสามารถทำnu_i} γ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR ที่จริงผมควรจะทำให้มันชัดเจนผมหมายถึง1 ฉันไม่รู้ถูกเรียกอีกอย่างว่าบริดจ์ γ < 1γ1γ<1
Firebug

1
@ อะมีบาโอเคสบาย ปกติฉันจะไม่แก้ไขหากการใช้ตัวพิมพ์ใหญ่สอดคล้องกันตลอดการโพสต์ แต่คราวนี้มีทั้ง "LASSO" และ "lasso" ดังนั้นฉันจึงไปที่ "LASSO" ซึ่งเป็นรูปแบบแรกในโพสต์ ฉันมักจะคิดถึงคำย่อนั่นคือเหตุผลที่ฉันใช้ตัวพิมพ์ใหญ่ทั้งหมด แต่อย่างที่คุณพูดว่า "บ่วงบาศ" อย่างง่ายอาจดีกว่า
Richard Hardy

คำตอบ:


20

ความถดถอยของสะพานและตาข่ายยืดหยุ่นต่างกันอย่างไรเป็นคำถามที่น่าสนใจเนื่องจากได้รับการลงโทษที่คล้ายกัน นี่เป็นวิธีหนึ่งที่เป็นไปได้ สมมติว่าเราแก้ปัญหาการถดถอยของสะพาน จากนั้นเราสามารถถามได้ว่าวิธีการแก้ปัญหายืดหยุ่นสุทธิจะแตกต่างกันอย่างไร การดูการไล่ระดับสีของฟังก์ชันการสูญเสียทั้งสองสามารถบอกอะไรเราได้บ้าง

การถดถอยของสะพาน

Say เป็นเมทริกซ์ที่มีค่าของตัวแปรอิสระ ( nคะแนน x dมิติ) yคือเวกเตอร์ที่มีค่าของตัวแปรตามและwคือเวกเตอร์น้ำหนักXndyw

ฟังก์ชั่นการสูญเสียบอลบรรทัดฐานของน้ำหนักที่มีขนาดλ :qλb

Lb(w)=yXw22+λbwqq

ความลาดชันของฟังก์ชั่นการสูญเสียคือ:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

หมายถึงพลัง Hadamard (เช่นองค์ประกอบที่ฉลาด) ซึ่งให้เวกเตอร์ที่องค์ประกอบ iเป็นvciฉัน sgn ( w )เป็นฟังก์ชันสัญญาณ (นำไปใช้กับองค์ประกอบของแต่ละ w ) การไล่ระดับสีอาจจะไม่ได้กำหนดที่ศูนย์ค่าของบางส่วนคิวvicsgn(w)wq

ยืดหยุ่นสุทธิ

ฟังก์ชั่นการสูญเสียคือ:

Le(w)=yXw22+λ1w1+λ2w22

นี่เป็นการลงโทษ บรรทัดฐานของน้ำหนักที่มีขนาด λ 1และ2บรรทัดฐานที่มีขนาด λ 2 กระดาษตาข่ายยืดหยุ่นเรียกการย่อขนาดฟังก์ชั่นการสูญเสียนี้ว่า 'ตาข่ายยืดหยุ่นไร้เดียงสา' เพราะจะทำให้น้ำหนักลดลงเป็นสองเท่า พวกเขาอธิบายขั้นตอนการปรับปรุงที่มีการลดน้ำหนักในภายหลังเพื่อชดเชยการหดตัวสองเท่า แต่ฉันจะวิเคราะห์รุ่นที่ไร้เดียงสา นั่นเป็นข้อแม้ที่ต้องจำไว้1λ12λ2

ความลาดชันของฟังก์ชั่นการสูญเสียคือ:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

การไล่ระดับสีไม่ได้กำหนดที่ศูนย์เมื่อเพราะค่าสัมบูรณ์ในการลงโทษ1นั้นไม่สามารถเปลี่ยนแปลงได้λ1>01

เข้าใกล้

สมมติว่าเราเลือกตุ้มน้ำหนักที่แก้ปัญหาการถดถอยของสะพาน นี่หมายความว่าการลดทอนการถดถอยของสะพานเป็นศูนย์ ณ จุดนี้:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

ดังนั้น:

2XT(yXw)=λbq|w|(q1)sgn(w)

เราสามารถทดแทนนี้ในการไล่ระดับสีสุทธิยืดหยุ่นที่จะได้รับการแสดงออกสำหรับการไล่ระดับสีสุทธิยืดหยุ่นที่ * โชคดีที่มันไม่ขึ้นกับข้อมูลโดยตรงอีกต่อไป:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

มองไปที่การไล่ระดับสีสุทธิยืดหยุ่นที่บอกเรา: ระบุว่าสะพานถดถอยได้แปรสภาพน้ำหนักW *วิธีที่จะความขาดแคลนสุทธิยืดหยุ่นในการเปลี่ยนแปลงน้ำหนักเหล่านี้หรือไม่ww

มันทำให้เรามีทิศทางในท้องถิ่นและขนาดของการเปลี่ยนแปลงที่ต้องการเพราะจุดไล่ระดับในทิศทางของการขึ้นชันและฟังก์ชันการสูญเสียจะลดลงเมื่อเราเคลื่อนที่ในทิศทางตรงกันข้ามกับการไล่ระดับสี การไล่ระดับสีอาจไม่ชี้ตรงไปยังสารละลายตาข่ายยืดหยุ่น แต่เพราะฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นนูนท้องถิ่นทิศทาง / ขนาดให้บางข้อมูลเกี่ยวกับวิธีการแก้ปัญหาสุทธิยืดหยุ่นจะแตกต่างจากการแก้ปัญหาสะพานถดถอย

กรณีที่ 1: ตรวจสอบสติ

( ) การถดถอยของบริดจ์ในกรณีนี้เทียบเท่ากับกำลังสองน้อยที่สุดธรรมดา (OLS) เนื่องจากขนาดการลงโทษเป็นศูนย์ สุทธิยืดหยุ่นเทียบเท่าถดถอยสันเพราะเพียง2บรรทัดฐานมือสัมผัส พล็อตต่อไปนี้แสดงวิธีแก้ปัญหาการถดถอยแบบบริดจ์ที่แตกต่างกันλb=0,λ1=0,λ2=12

enter image description here

พล็อตด้านซ้าย: การไล่ระดับสีสุทธิแบบยืดหยุ่นเทียบกับน้ำหนักการถดถอยของสะพานในแต่ละมิติ

แกน x แสดงส่วนประกอบหนึ่งชุดของตุ้มน้ำหนัก เลือกโดยการถดถอยสะพาน แกน Y หมายถึงองค์ประกอบที่สอดคล้องกันของการไล่ระดับสีสุทธิยืดหยุ่นประเมิน W * โปรดทราบว่าน้ำหนักนั้นมีหลายมิติ แต่เราเพียงแค่ดูน้ำหนัก / การไล่ระดับสีตามมิติเดียวww

พล็อตที่ถูกต้อง: การเปลี่ยนแปลงเน็ตยืดหยุ่นกับน้ำหนักการถดถอยของสะพาน (2d)

แต่ละจุดหมายถึงชุดน้ำหนัก 2d เลือกโดยการถดถอยสะพาน สำหรับแต่ละทางเลือกของ w เวกเตอร์จะถูกพล็อตชี้ไปในทิศทางตรงข้ามกับการไล่ระดับสีอีลาสติกยืดหยุ่นโดยมีขนาดตามสัดส่วนของการไล่ระดับสี นั่นคือเวกเตอร์ที่พล็อตแสดงให้เห็นว่าตาข่ายยืดหยุ่นต้องการเปลี่ยนวิธีแก้ปัญหาการถดถอยของสะพานอย่างไรww

พล็อตเหล่านี้แสดงให้เห็นว่าเมื่อเทียบกับการถดถอยของสะพาน (OLS ในกรณีนี้) ตาข่ายยืดหยุ่น (การถดถอยแนวสันในกรณีนี้) ต้องการลดน้ำหนักให้เป็นศูนย์ ปริมาณการหดตัวที่ต้องการจะเพิ่มขึ้นตามขนาดของน้ำหนัก หากน้ำหนักเป็นศูนย์โซลูชันจะเหมือนกัน การตีความคือว่าเราต้องการที่จะย้ายไปในทิศทางตรงข้ามกับการไล่ระดับสีเพื่อลดฟังก์ชั่นการสูญเสีย ตัวอย่างเช่นพูดการถดถอยของสะพานมารวมกันเป็นค่าบวกสำหรับหนึ่งในน้ำหนัก ณ จุดนี้การยืดตัวแบบยืดหยุนสุทธิเป็นบวกดังนั้นตาข่ายยืดตัวจึงต้องการลดน้ำหนักนี้ หากใช้การไล่ระดับสีแบบไล่ระดับเราจะทำขั้นตอนตามสัดส่วนในการไล่ระดับสี (แน่นอนว่าเราไม่สามารถใช้การไล่ระดับสีแบบทางเทคนิคเพื่อแก้ปัญหาตาข่ายยืดหยุ่นได้เนื่องจากความไม่สามารถหาอนุพันธ์ได้ที่ศูนย์

กรณีที่ 2: การจับคู่สะพาน & ตาข่ายยืดหยุ่น

( ) ฉันเลือกพารามิเตอร์การลงโทษสะพานเพื่อให้ตรงกับตัวอย่างจากคำถาม ฉันเลือกพารามิเตอร์เครือข่ายอีลาสติกเพื่อให้ได้โทษสุทธิที่ดีที่สุดที่ตรงกัน ที่นี่วิธีการจับคู่ที่ดีที่สุดจากการกระจายน้ำหนักโดยเฉพาะเราพบว่าพารามิเตอร์การลงโทษสุทธิยืดหยุ่นที่ลดความแตกต่างกำลังสองที่คาดไว้ระหว่างสะพานและการลงโทษสุทธิแบบยืดหยุ่น:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

ที่นี่ฉันคิดว่าน้ำหนักกับรายการทั้งหมดที่ดึงมาจากการกระจายเครื่องแบบใน (เช่นภายใน hypercube เป็นศูนย์กลางที่จุดกำเนิด) พารามิเตอร์ยืดหยุ่นสุทธิที่ดีที่สุดที่ตรงกันนั้นมีขนาดใกล้เคียงกับ 2 ถึง 1,000 มิติ แม้ว่าพวกเขาจะไม่ได้มีความไวต่อมิติ แต่พารามิเตอร์ที่ดีที่สุดที่ตรงกันจะขึ้นอยู่กับขนาดของการกระจาย[2,2]

ปรับพื้นผิว

นี่คือโครงร่างของการลงโทษรวมที่กำหนดโดยการถดถอยของสะพาน ( ) และตาข่ายยืดหยุ่นที่ดีที่สุดที่ตรงกัน ( λ 1 = 0.629 , λ 2q=1.4,λb=100λ1=0.629,λ2=0.355

enter image description here

พฤติกรรมการไล่ระดับสี

enter image description here

เราสามารถดูต่อไปนี้:

  • ให้wjj
  • |wj|<0.25
  • |wj|0.25
  • 0.25<|wj|<1.31
  • |wj|1.31
  • |wj|>1.31

qλbλ1,λ2

กรณีที่ 3: สะพานที่ไม่ตรงกัน & สุทธิยืดหยุ่น

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

enter image description here

Relative to bridge regression, elastic net wants to shrink small weights toward zero and increase larger weights. There's a single set of weights in each quadrant where the bridge regression and elastic net solutions coincide, but elastic net wants to move away from this point if the weights differ even slightly.

(q=1.2,λb=1,λ1=173,λ2=0.816). In this regime, the bridge penalty is more similar to an 1 penalty (although bridge regression may not produce sparse solutions with q>1, as mentioned in the elastic net paper). I found the best-matching λ1,λ2, but then swapped them so that the elastic net behaves more like ridge regression (2 penalty greater than 1 penalty).

enter image description here

Relative to bridge regression, elastic net wants to grow small weights and shrink larger weights. There's a point in each quadrant where the bridge regression and elastic net solutions coincide, and elastic net wants to move toward these weights from neighboring points.


3
(+1) Great answer, thanks for the effort! Could you address one last thing: "is the Elastic Net always more desirable?". No need to be lengthy;
Firebug

6
Bridge regression and elastic net are equivalent to MAP estimation with different kinds of priors on the weights. From this perspective, it seems like the better choice would be the prior that better matches the data-generating process, and that neither method could be better in all cases.
user20160

2
+6, very nice answer. Regarding your above comment: what prior yields bridge regression? I know that Gaussian prior corresponds to ridge and Laplace prior to lasso. Can one somehow combine these priors to get something that corresponds to elastic net?
amoeba says Reinstate Monica

2
@amoeba The question wasn't directed to me, I know, but as GeneralAbrial said in the question, bridge probably corresponds to a Subbotin prior. Elastic net, as expected, is between Gaussian and Laplacian priors. See Li, Q., & Lin, N. (2010). The Bayesian elastic net. Bayesian Analysis, 5(1), 151-170. and Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(2), 301-320. for a brief comparison between elastic net and bridge regression.
Firebug

2
@amoeba thanks for the bounty and drawing attention to this post, likewise for the other post about PCA vs. nonlinear dimensionality reduction. It's admirable that you use your rep to promote others' questions/answers, and it makes me glad if this post is at least of some small value to people. Others, thanks too for the kind words.
user20160
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.