สันเขาและลาสโซบรรทัดฐาน


12

โพสต์นี้ตามหลังอันนี้: ทำไมการประมาณสันถึงดีกว่า OLS โดยการเพิ่มค่าคงที่ในแนวทแยง

นี่คือคำถามของฉัน:

เท่าที่ฉันรู้แล้วการทำให้เป็นมาตรฐานของสันเขาใช้ -norm (ระยะทางแบบยูคลิด) แต่ทำไมเราถึงใช้สแควร์ของบรรทัดฐานนี้ (แอปพลิเคชันโดยตรงของจะส่งผลให้มีสแควร์รูทของผลรวมของเบต้ากำลังสอง)222

เป็นการเปรียบเทียบเราไม่ทำเช่นนี้กับ LASSO ซึ่งใช้ไม่ต้องทำเป็นประจำ แต่นี่คือบรรทัดฐาน"ของจริง" (เพียงผลรวมของกำลังสองของค่าสัมบูรณ์สัมบูรณ์เบต้าและไม่ใช่กำลังสองของผลรวมนี้)111

มีคนช่วยฉันอธิบายไหม


2
ระยะเวลาการลงโทษในการถดถอยสันเขาเป็นบรรทัดฐาน L2 กำลังสอง ดูสไลด์เหล่านี้ที่เขียนโดย Tibshirani เป็นตัวอย่าง (สไลด์ 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdfดูที่นี่en.wikipedia.org/wiki/Tikhonov_regularization
boscovich

จุดเล็ก ๆ ของการชี้แจงเหล่านี้เป็นภาพนิ่งจาก Ryan Tibshirani ไม่ใช่ Rob
Ellis Valentiner

ตกลงขอบคุณมากสำหรับการชี้แจง แต่ฉันไม่เข้าใจว่าทำไมกำลังสองสำหรับ L2 และไม่ได้กำลังสองสำหรับ L1 เราไม่มีสูตรทั่วไปสำหรับการทำให้เป็นมาตรฐานหรือไม่?
PLOTZ

@ user12202013: ขอบคุณที่ชี้ให้เห็น ฉันไม่ได้สังเกตว่า
boscovich

คำตอบ:


9

สันและเชือกเป็นสองวิธีในการทำให้เป็นมาตรฐานและการถดถอย Lasso ถดถอยกำหนดข้อ จำกัด เกี่ยวกับผลรวมของสัมประสิทธิ์สัมบูรณ์:

iβi2=||β||1

การถดถอยของสันเขาเรียกร้องข้อ จำกัด ของผลรวมของความแตกต่างกำลังสอง:

iβi2=iβi22=||βi||22

คุณแนะนำให้แนะนำบรรทัดฐานอื่นความยาวของปริภูมิแบบสัมประสิทธิ์ยูคลิด:

iβi2=||βi||2

ความแตกต่างระหว่างการถดถอยของสันและความยาวแบบยุคลิดคือการยกกำลังสอง สิ่งนี้เปลี่ยนการตีความของการทำให้เป็นมาตรฐาน ในขณะที่ความยาวของสันเขาและความยาวแบบยุคลิดเป็นศูนย์เป็นศูนย์ แต่การถดถอยของสันก็มีความแตกต่างกันด้วย ค่าสัมประสิทธิ์ที่อยู่ห่างจากศูนย์ดึงขึ้นไปทางศูนย์ สิ่งนี้ทำให้มีเสถียรภาพมากขึ้นประมาณศูนย์เนื่องจากการเปลี่ยนแปลงในแบบปกติจะค่อย ๆ เป็นศูนย์ นี่ไม่ใช่กรณีของความยาวแบบยุคลิดหรือตามความเป็นจริงสำหรับการถดถอยแบบ lasso


7

มีวิธีการลงโทษมากมายที่มีฟังก์ชั่นการลงโทษที่แตกต่างกันทุกประเภทในขณะนี้ (สันเขา, บ่วงบาศ, MCP, SCAD) คำถามที่ว่าทำไมหนึ่งในรูปแบบใดรูปแบบหนึ่งโดยทั่วไปคือ "การลงโทษเช่นนี้มีข้อดีหรือข้อเสียอะไร?"

คุณสมบัติที่น่าสนใจอาจเป็น:

1) ตัวประมาณที่ไม่เอนเอียง (สังเกตว่าตัวประมาณที่ถูกลงโทษทั้งหมดจะลำเอียง)

2) Sparsity (การถดถอยของสันโน้ตไม่ให้ผลลัพธ์ที่เบาบางนั่นคือไม่ทำให้ค่าสัมประสิทธิ์ลดลงจนเป็นศูนย์)

3) ความต่อเนื่อง (เพื่อหลีกเลี่ยงความไม่แน่นอนในการทำนายแบบจำลอง)

เหล่านี้เป็นคุณสมบัติเพียงไม่กี่อย่างที่ใคร ๆ ก็สนใจฟังก์ชั่นการลงโทษ

มันเป็นง่ายมากที่จะทำงานร่วมกับผลรวมในการพิสูจน์และการทำงานทฤษฎี: เช่นและ| | β | | 1 = | β i | . ลองนึกภาพถ้าเรามี||β||22=|βi|2||β||1=|βi|หรือ(Σ|บีตาฉัน|)2 การจดอนุพันธ์ (ซึ่งจำเป็นต่อการแสดงผลลัพธ์ทางทฤษฎีเช่นความสม่ำเสมอความเป็นระเบียบเชิงเส้นกำกับเป็นต้น) จะเป็นความเจ็บปวดที่มีบทลงโทษเช่นนั้น(|βi|2)(|βi|)2


โอเคขอบคุณ. แต่ทำไมกำลังสองสำหรับ L2 และไม่ยกกำลังสองสำหรับ L1 เราไม่มีสูตรทั่วไปสำหรับการทำให้เป็นมาตรฐานหรือไม่? นี้จะทำให้งงฉัน ...
Plotz

@PLOTZ ฉันเพิ่มคำตอบของฉันเล็กน้อย
bdeonovic

ขอบคุณมากเบนจามิน! แน่นอนตอนนี้มันชัดเจนกว่า! ฉันไม่ได้รับวัตถุประสงค์ทางทฤษฎีนี้ก่อนคำตอบของคุณ ขอบคุณมากสำหรับคำตอบของคุณ
PLOTZ

@Benjamin: ในจุด # 1 คุณหมายถึง "( ไม่ใช่ตัวประมาณค่าที่ถูกลงโทษทั้งหมดจะไม่เอนเอียง)"? การถดถอยของสันเขา - เพียงเพื่อชื่อหนึ่ง - มีอคติ
boscovich

อ๊ะขอบคุณสำหรับการจับที่! ฉันคิดว่าในความเป็นจริงตัวประมาณที่ถูกลงโทษทั้งหมดจะลำเอียง
bdeonovic

5

21βppp>0

การถดถอยแบบสันใช้และ Lassoแต่สามารถใช้ค่าอื่นได้p = 1 pp=2p=1p

ตัวอย่างเช่นคุณมีโซลูชันกระจัดกระจายสำหรับค่าทั้งหมดของและยิ่งค่าของที่ sparser น้อยลงpp1p

สำหรับค่าของวัตถุประสงค์ของคุณไม่ราบรื่นดังนั้นการเพิ่มประสิทธิภาพจึงยากขึ้น สำหรับวัตถุประสงค์ไม่นูนดังนั้นการเพิ่มประสิทธิภาพจึงยากขึ้น ...p < 1p1p<1


2

ฉันเชื่อว่ามีคำตอบที่ง่ายยิ่งขึ้นที่นี่แม้ว่าคำถาม "ทำไม" มักจะตอบยากเมื่อมีการพัฒนาเทคนิค squaredไม่ถูกใช้เพื่อให้เทอร์มินัลการทำให้มีความแตกต่างได้ง่าย ลดความถดถอยสัน:l2

yXβ22+λβ22

ซึ่งสามารถเขียนได้:

yXβ22+λβTβ

ตอนนี้สามารถแตกต่างได้อย่างง่ายดาย wrtเพื่อรับโซลูชันแบบปิด:β

β^ridge=(XTX+λI)1XTy

จากการอนุมานทุกชนิดสามารถรับได้


1

พิจารณาความแตกต่างที่สำคัญอีกข้อหนึ่งระหว่างการใช้จตุของ norm (เช่นการถดถอยของสัน) และ unmodified norm: อนุพันธ์ของ norm ของ , , ที่ถูกกำหนดโดยดังนั้นจึงไม่มีความแตกต่างที่ศูนย์เวกเตอร์ นั่นคือถึงแม้ว่า norm ไม่ได้เลือกตัวแปรแต่ละตัวเหมือน lasso แต่ในทางทฤษฎีมันสามารถให้ผลผลิตในฐานะที่เป็นวิธีแก้ปัญหาที่น่าจะเป็นโทษสูงสุด โดยกำลังสอง2 2 x | | x | | 2 x x222x||x||2x2β=02x||x||22β=02 บรรทัดฐานในการลงโทษการลงโทษแบบสันเขานั้นแตกต่างกันไปทุกหนทุกแห่งและไม่สามารถให้ทางออกได้

พฤติกรรมนี้เป็นสิ่งที่แน่นอน (โดยความเข้าใจของฉัน) ทำไมกลุ่ม lasso (หยวนและหลิน) และกลุ่ม lasso (Simon, et al.) และอื่น ๆ ใช้บรรทัดฐาน (ในส่วนย่อยที่เจาะจงของสัมประสิทธิ์) แทนที่จะเป็นรูปสี่เหลี่ยมจัตุรัส ของบรรทัดฐาน222

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.