การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (


35

การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น


6
ลองดู Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ"บทที่ 3 และ 18 (ค้นหา "Elastic net")
Richard Hardy

คำตอบ:


42

1. วิธีใดเป็นที่ต้องการ

ใช่ตาข่ายที่ยืดหยุ่นมักเป็นที่นิยมมากกว่าการถดถอยแบบ lasso & ridge เพราะมันสามารถแก้ไขข้อ จำกัด ของทั้งสองวิธีในขณะที่รวมถึงแต่ละกรณีเป็นกรณีพิเศษ ดังนั้นหากวิธีแก้ปัญหาสันเขาหรือบ่วงนั้นเป็นสิ่งที่ดีที่สุดแน่นอนว่าการเลือกแบบจำลองที่ดีจะระบุว่าเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลอง

ความคิดเห็นที่โพสต์ของฉันได้ชี้ให้เห็นว่าข้อดีของการยืดหยุ่นสุทธิจะไม่มีเงื่อนไข ฉันยืนยันในความเชื่อของฉันว่าความเป็นสากลของการถดถอยสุทธิแบบยืดหยุ่นยังคงเป็นที่นิยมในการทำให้เป็นมาตรฐานL1หรือL2ด้วยตนเอง โดยเฉพาะฉันคิดว่าประเด็นของการต่อสู้ระหว่างฉันกับคนอื่นนั้นเชื่อมโยงโดยตรงกับข้อสันนิษฐานที่เรายินดีทำเกี่ยวกับกระบวนการสร้างแบบจำลอง เมื่อมีความรู้ที่แข็งแกร่งเกี่ยวกับข้อมูลพื้นฐานบางวิธีจะเป็นที่ต้องการของผู้อื่น อย่างไรก็ตามความชอบของฉันสำหรับตาข่ายยืดหยุนนั้นมีรากฐานมาจากความสงสัยของฉันที่ใคร ๆ ก็มั่นใจได้ว่าL1หรือL2เป็นแบบจำลองที่แท้จริง

  1. การอ้างสิทธิ์: ความรู้ก่อนหน้าอาจยกเลิกหนึ่งในความต้องการใช้การถดถอยสุทธิแบบยืดหยุ่น

มันค่อนข้างกลม ยกโทษให้ฉันถ้านี่เป็นกะล่อนค่อนข้าง แต่ถ้าคุณรู้ว่า LASSO (สันเขา) เป็นทางออกที่ดีที่สุดแล้วคุณจะไม่ถามตัวเองว่าจะทำแบบจำลองอย่างเหมาะสม; คุณจะพอดีกับโมเดล LASSO (สัน) หากคุณแน่ใจอย่างแน่นอนว่าคำตอบที่ถูกต้องคือการถดถอยของ LASSO (สันเขา) คุณจะมั่นใจได้อย่างชัดเจนว่าไม่มีเหตุผลที่จะเสียเวลาในการติดตั้งมุ้งยืด แต่ถ้าคุณไม่แน่ใจเล็กน้อยว่า LASSO (สัน) เป็นวิธีที่ถูกต้องในการดำเนินการหรือไม่ฉันเชื่อว่ามันสมเหตุสมผลที่จะประเมินตัวแบบที่ยืดหยุ่นมากขึ้นและประเมินว่าข้อมูลสนับสนุนความเชื่อก่อนหน้านี้มากเพียงใด

  1. L1L2L1L2

α{0,1},α=1α=0

  1. การอ้างสิทธิ์: การแนะนำพารามิเตอร์หลายมิติเพิ่มเติมจะเพิ่มต้นทุนการคำนวณในการประเมินแบบจำลอง

λλαλ

  1. การอ้างสิทธิ์: ไม่รับประกันประสิทธิภาพที่เพิ่มขึ้นของความยืดหยุ่นของตาข่ายเหนือ LASSO หรือสันเขา

นี่เป็นเรื่องจริง แต่ในขั้นตอนที่เราคิดว่าจะใช้วิธีไหนใครจะไม่รู้ว่าตาข่ายยืดหยุ่นสันหรือ LASSO นั้นดีที่สุด หากหนึ่งในเหตุผลที่ทางออกที่ดีที่สุดต้องเป็น LASSO หรือการถดถอยแนวสันนั่นก็คือเราอยู่ในโดเมนของการอ้างสิทธิ์ (1) หากเรายังไม่แน่ใจว่าสิ่งไหนดีที่สุดเราสามารถทดสอบ LASSO, สันและยืดหยุ่นได้และเลือกรุ่นสุดท้ายที่จุดนั้น (หรือถ้าคุณเป็นนักวิชาการเพียงเขียนบทความของคุณเกี่ยวกับทั้งสามข้อ ) สถานการณ์ความไม่แน่นอนก่อนหน้านี้จะทำให้เราอยู่ในขอบเขตของการอ้างสิทธิ์ (2) ซึ่งรูปแบบที่แท้จริงคือ LASSO / สันเขา แต่เราไม่ทราบล่วงหน้าก่อนเวลาและเราเลือกรูปแบบที่ไม่ถูกต้องเนื่องจากพารามิเตอร์ที่ระบุไม่ดีหรือ ยืดหยุ่นสุทธิเป็นทางออกที่ดีที่สุด

  1. การอ้างสิทธิ์: เลือก Hyperparameter โดยไม่ต้องตรวจสอบข้ามจะลำเอียงอย่างมากและผิดพลาดได้ง่าย

α

2. สัญชาตญาณและคณิตศาสตร์เบื้องหลังหยยืดหยุ่นคืออะไร

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

α[0,1].

Hui Zou และ Trevor Hastie " การทำให้เป็นมาตรฐานและการเลือกตัวแปรผ่านทางเน็ตยืดหยุ่น " สถิติ JR Soc., vol 67 (2005), ตอนที่ 2, pp. 301-320

Richard Hardy ชี้ให้เห็นว่าสิ่งนี้ได้รับการพัฒนาในรายละเอียดเพิ่มเติมใน Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" บทที่ 3 และ 18

3. ถ้าคุณเพิ่มเพิ่มเติมLq

นี่เป็นคำถามที่ถูกโพสต์ถึงฉันในความคิดเห็น:

L3γγ0L3

ฉันขอขอบคุณที่จิตวิญญาณของคำถามคือ "ถ้ามันเป็นตามที่คุณเรียกร้องและการลงโทษสองครั้งดีทำไมไม่เพิ่มอีก?" แต่ฉันคิดว่าคำตอบอยู่ที่ว่าทำไมเราถึงทำให้เป็นอันดับแรก

L1nnL2pL2p>n

นอกจากปัญหาเหล่านี้แล้วโมเดลที่ทำให้เป็นมาตรฐานยังสามารถออกตัวแบบ ML ได้เนื่องจากคุณสมบัติการหดตัวของตัวประมาณค่าเป็น "มองโลกในแง่ร้าย" และดึงสัมประสิทธิ์ไปที่ 0

L3

L1L2

L1L2

L2L1L1L2

LqL1L2


4
การพูดว่า "ตาข่ายยืดหยุ่นมักเป็นที่นิยมมากกว่าการถดถอยแบบ lasso & ridge" อาจแข็งแกร่งเกินไปเล็กน้อย ในตัวอย่างที่มีขนาดเล็กหรือขนาดกลางอวนอาจไม่เลือกใช้สารละลาย LASSO หรือริดจ์บริสุทธิ์แม้ว่าในอดีตหรืออันหลังนั้นเป็นของที่เกี่ยวข้องก็ตาม ด้วยความรู้ที่แข็งแกร่งมาก่อนจึงสามารถเลือก LASSO หรือสันเขาแทนการใช้ตาข่ายยืดหยุ่น อย่างไรก็ตามหากขาดความรู้ก่อนหน้านี้ตาข่ายยืดหยุ่นควรเป็นทางออกที่ต้องการ
Richard Hardy

4
α

7
γγ0

5
L1L2L3

3
"เราสามารถทดสอบโซลูชั่น LASSO, สันและยืดหยุ่นได้และเลือกรุ่นสุดท้าย" - เราทำได้ แต่แน่นอนว่าตัวเองเป็นขั้นตอนใหม่การปรับเกณฑ์ให้เหมาะสมกับข้อผิดพลาดแบบสุ่มซึ่งอาจหรืออาจทำงานได้ไม่ดีขึ้น กว่า LASSo หรือการถดถอยสันหรือตาข่ายยืดหยุ่นเพียงอย่างเดียว
Scortchi - Reinstate Monica

11

โดยทั่วไปฉันเห็นด้วยกับคำตอบ @Sycorax แต่ฉันต้องการเพิ่มคุณสมบัติบางประการ

การพูดว่า "ตาข่ายยืดหยุ่นมักเป็นที่นิยมมากกว่าการถดถอยแบบ lasso & ridge" อาจแรงเกินไป ในตัวอย่างที่มีขนาดเล็กหรือขนาดกลางอวนอาจไม่เลือกใช้สารละลาย LASSO หรือริดจ์บริสุทธิ์แม้ว่าในอดีตหรืออันหลังนั้นเป็นของที่เกี่ยวข้องก็ตาม ด้วยความรู้ที่แข็งแกร่งมาก่อนจึงสามารถเลือกใช้ LASSO หรือสันเขาแทนการใช้ตาข่ายยืดหยุ่น อย่างไรก็ตามหากขาดความรู้ก่อนหน้านี้แล้วตาข่ายยืดหยุ่นควรเป็นคำตอบที่ต้องการ

นอกจากนี้ตาข่ายยืดหยุ่นยังมีราคาแพงกว่า LASSO หรือสันเขาเนื่องจากมีการเลือกน้ำหนักสัมพัทธ์ของ LASSO เมื่อเทียบกับสันเขาโดยใช้การตรวจสอบแบบไขว้ หากกริดที่เหมาะสมของค่าอัลฟาคือ [0,1] ที่มีขนาดขั้นตอนที่ 0.1 นั่นก็หมายถึงว่าตาข่ายยืดหยุนนั้นมีค่าประมาณ 11 เท่าของราคาที่คำนวณได้เช่น LASSO หรือสันเขา (เนื่องจาก LASSO และสันเขาไม่มีความซับซ้อนในการคำนวณเหมือนกันผลที่ได้คือการคาดเดาคร่าวๆ)


1
หรือจริง ๆ แล้ว LASSO หรือการถดถอยแบบสันอาจไม่สามารถปรับปรุงประสิทธิภาพการทำนายได้ดีกว่าการถดถอยแบบไม่ผ่านขั้นตอน
Scortchi - Reinstate Monica

4
ความรู้เดิมประเภทใดที่จะนำไปสู่สิ่งที่ชอบ Lasso และความรู้ก่อนหน้านี้ประเภทใดที่จะนำไปสู่ความพึงพอใจของสันเขา
อะมีบาพูดว่า Reinstate Monica

4
@ amoeba, ถ้าเป็นไปได้ว่า regressors ทั้งหมดมีความเกี่ยวข้อง, แต่มันมีความสัมพันธ์กันมาก, ไม่จำเป็นต้องเลือกตัวแปรดังนั้นจึงควรเลือกสันเขา หากในอีกทางหนึ่ง regressors บางคนมีแนวโน้มที่จะไม่เกี่ยวข้องอย่างสมบูรณ์ (แต่เราก็ไม่รู้ว่าใคร) แล้วเลือกตัวแปรที่จำเป็นและ LASSO เป็นที่ต้องการ ความรู้นี้จะถูกนำมาจากโดเมนหัวเรื่อง ฉันคิดว่าอาจมีตัวอย่างใน Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" หรือในวรรณคดีที่เกี่ยวข้องฉันไม่จำที่ฉันอ่าน
Richard Hardy

1
@kjetilbhalvorsen ขอบคุณที่เป็นประโยชน์
Richard Hardy

1
@ amoeba, สันเขาจะดีกว่าสำหรับข้อมูลที่มีความสัมพันธ์กัน, ที่ L2 กระตุ้นให้น้ำหนักเล็ก ๆ จำนวนมาก (เฉลี่ย) เหนืออินพุต .. ตัวอย่างคลาสสิกที่ถูกวัดซ้ำด้วยเสียงที่เป็นอิสระ (เช่นการประมวลสัญญาณ, หรือการสอบหลายวิชาเดียวกัน), ดีกว่าที่ 1 วาร์ครองกรณีคลาสสิกอื่น ๆ เป็นข้อมูลแบบลำดับชั้น: โดยควรประมาณค่าสัมประสิทธิ์ในระดับสูงสุดในลำดับชั้น
seanv507
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.