เมื่อใดที่ฉันควรใช้บ่วงบาศกับสันเขา?

167

กล่าวว่าฉันต้องการประมาณค่าพารามิเตอร์จำนวนมากและฉันต้องการลงโทษบางส่วนเพราะฉันเชื่อว่าพวกเขาควรมีผลเพียงเล็กน้อยเมื่อเทียบกับคนอื่น ฉันจะตัดสินใจว่าจะใช้รูปแบบการลงโทษได้อย่างไร การถดถอยของสันเขาจะเหมาะสมกว่าเมื่อใด เมื่อใดที่ฉันควรใช้บ่วงบาศ

regression lasso ridge-regression

— แลร์รี่หวาง
แหล่งที่มา

"สมมติว่าฉันต้องการประเมินพารามิเตอร์จำนวนมาก" นี่อาจทำให้แม่นยำยิ่งขึ้น: กรอบคืออะไร ฉันเดาว่ามันคือการถดถอยเชิงเส้น?

— robin girard

2

มีคำถามที่คล้ายกันเพิ่งถูกถามเมื่อ metaoptimize (โปรดทราบว่า l1 = LASSO และ l2 = สัน): metaoptimize.com/qa/questions/5205/…

— Gael Varoquaux

คุณพูดว่า "lasso vs ridge" ราวกับว่ามันเป็นเพียงสองตัวเลือก - แล้วเรื่องคู่พาเรโต, เกือกม้า, bma, สะพาน, และอื่น ๆ ล่ะ?

— ความน่าจะเป็นทาง

106

โปรดทราบว่าการถดถอยของสันเขาไม่สามารถสัมประสิทธิ์สัมประสิทธิ์เป็นศูนย์ได้ ดังนั้นคุณอาจจบลงด้วยการรวมค่าสัมประสิทธิ์ทั้งหมดในโมเดลหรือไม่มีเลย ในทางตรงกันข้าม LASSO จะทำการย่อขนาดพารามิเตอร์และการเลือกตัวแปรโดยอัตโนมัติ หากเพื่อนร่วมชาติของคุณบางคนมีความสัมพันธ์สูงคุณอาจต้องการดู Elastic Net [3] แทน LASSO

ฉันแนะนำให้ใช้ Garotte แบบไม่ลบ (NNG) [1] เป็นการส่วนตัวเพราะมันสอดคล้องกันในแง่ของการประมาณค่าและการเลือกตัวแปร [2] ซึ่งแตกต่างจาก LASSO และการถดถอยของสันเขา NNG ต้องการการประมาณค่าเริ่มต้นที่จะหดไปทางต้นกำเนิด ในเอกสารต้นฉบับ Breiman แนะนำวิธีแก้ปัญหาแบบกำลังสองน้อยที่สุดสำหรับการประเมินเบื้องต้น (อย่างไรก็ตามคุณอาจต้องการเริ่มการค้นหาจากวิธีแก้ปัญหาการถดถอยของสันเขาและใช้สิ่งต่าง ๆ เช่น GCV เพื่อเลือกพารามิเตอร์การลงโทษ)

ในแง่ของซอฟต์แวร์ที่มีอยู่ฉันได้ใช้ NNG ดั้งเดิมใน MATLAB (ตามรหัส FORTRAN ดั้งเดิมของ Breiman) คุณสามารถดาวน์โหลดได้จาก:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

BTW หากคุณต้องการวิธีการแก้ปัญหาแบบเบย์ลองดู [4,5]

อ้างอิง:

[1] Breiman, L. การแบ่งกลุ่มที่ดีขึ้นโดยใช้เทคนิค Garrote Nonnegative, 1995, 37, 373-384

[2] Yuan, M. & Lin, Y. ในการประมาณค่าที่ไม่เป็นลบ - วารสารวารสารสมาคมสถิติรอยัล (ซีรีย์ B), 2007, 69, 143-161

[3] Zou, H. & Hastie, T. การปรับความสม่ำเสมอและการเลือกตัวแปรผ่านทางสมุดรายวันยืดหยุ่นสุทธิของสมาคมสถิติแห่งราชอาณาจักร (ชุด B), 2005, 67, 301-320

[4] Park, T. & Casella, G. The วารสาร Bayesian Lasso ของสมาคมสถิติอเมริกัน, 2008, 103, 681-686

[5] Kyung, M. ; ปลา, J.; Ghosh, M. & Casella, G. การถดถอยที่ถูกปรับ, ข้อผิดพลาดมาตรฐานและการวิเคราะห์แบบเบส์ Lassos Bayesian, 2010, 5, 369-412

— emakalic
แหล่งที่มา

2

คุณจะเจาะจงเกี่ยวกับสันเขากับบ่วงบาศมากกว่านี้ไหม? การเลือกตัวแปรอัตโนมัติเป็นเหตุผลเดียวที่ทำให้ชอบบ่วงบาศหรือไม่?

— Chogg

42

สันเขาหรือเชือกเป็นรูปแบบของการถดถอยเชิงเส้น การทำให้เป็นมาตรฐานยังสามารถตีความได้เหมือนเดิมในวิธีการประมาณค่าสูงสุดหลัง ภายใต้การตีความนี้สันเขาและบ่วงทำให้สมมติฐานที่แตกต่างกันในชั้นเรียนของการแปลงเชิงเส้นที่พวกเขาอนุมานว่าเกี่ยวข้องกับข้อมูลอินพุตและเอาต์พุต ในสันเขาค่าสัมประสิทธิ์ของการแปลงเชิงเส้นเป็นแบบกระจายแบบปกติและในแบบบ่วงที่พวกมันกระจายแบบ Laplace ใน Lasso สิ่งนี้จะทำให้การสัมประสิทธิ์เป็นศูนย์ได้ง่ายขึ้นดังนั้นจึงง่ายต่อการกำจัดตัวแปรอินพุตบางตัวของคุณโดยไม่เกี่ยวข้องกับเอาต์พุต

นอกจากนี้ยังมีข้อควรพิจารณาในทางปฏิบัติบางประการ สันเขานั้นใช้งานได้ง่ายกว่าและเร็วกว่าในการคำนวณซึ่งอาจมีความสำคัญขึ้นอยู่กับประเภทของข้อมูลที่คุณมี

หากคุณมีการใช้งานทั้งสองให้ใช้ส่วนย่อยของข้อมูลของคุณเพื่อค้นหาสันเขาและบ่วงบาศและเปรียบเทียบวิธีการทำงานของข้อมูลที่เหลือ ข้อผิดพลาดควรให้แนวคิดในการใช้

— hbar
แหล่งที่มา

8

ฉันไม่เข้าใจ - คุณจะรู้ได้อย่างไรว่าสัมประสิทธิ์ของคุณเป็นแบบ Laplace หรือกระจายแบบปกติ?

— ihadanny

1

เหตุใดการถดถอยของ Ridge จึงเร็วกว่าในการคำนวณ

— Archie

4

@Hbar: "การทำให้เป็นมาตรฐานนั้นสามารถตีความได้ว่าเป็นวิธีการประเมินหลังแบบสูงสุด": คุณช่วยอธิบายส่วนนี้ในรายละเอียดเพิ่มเติมด้วยสัญลักษณ์ทางคณิตศาสตร์หรืออย่างน้อยก็ให้อ้างอิงได้หรือไม่? ขอบคุณ!

— Mathmath

2

@ihadanny คุณคงไม่รู้มากที่สุดและนั่นคือประเด็น คุณสามารถตัดสินใจได้ว่าคนไหนที่จะเก็บไว้ข้างหลัง

— Firebug

30

โดยทั่วไปเมื่อคุณมีเอฟเฟกต์ขนาดเล็ก / กลางจำนวนมากคุณควรไปด้วยสันเขา หากคุณมีตัวแปรเพียงไม่กี่ตัวที่มีเอฟเฟกต์ปานกลาง / ใหญ่ให้ไปกับบ่วงบาศ Hastie, Tibshirani, Friedman

— แกรี่
แหล่งที่มา

4

แต่เมื่อคุณมีตัวแปรไม่กี่ตัวคุณอาจต้องการเก็บมันไว้ในแบบจำลองของคุณถ้ามันมีเอฟเฟกต์ขนาดกลาง / ใหญ่ซึ่งจะไม่เป็นเช่นในบ่วงเพราะมันอาจจะลบหนึ่งในนั้น คุณช่วยอธิบายรายละเอียดนี้ได้ไหม? ฉันรู้สึกเมื่อคุณมีตัวแปรมากมายที่เราใช้ Lasso เพื่อลบตัวแปรที่ไม่จำเป็นและไม่ใช่สันเขา

— aditya bhandari