เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย

83

ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS?

ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

75

คำตอบสั้น ๆ : เมื่อใดก็ตามที่คุณเผชิญหนึ่งในสถานการณ์เหล่านี้:

ตัวแปรจำนวนมากหรืออัตราส่วนต่ำไม่มี ข้อสังเกตที่ไม่ ตัวแปร (รวมถึงกรณี ) $n\ll p$
collinearity สูง
การค้นหาวิธีแก้ปัญหาแบบเบาบาง (เช่นการเลือกคุณลักษณะแบบฝังเมื่อประเมินพารามิเตอร์โมเดล) หรือ
การบัญชีสำหรับกลุ่มตัวแปรในชุดข้อมูลมิติสูง

การถดถอยของสันเขามักให้ผลการคาดการณ์ที่ดีกว่าวิธีการ OLS ผ่านการประนีประนอมระหว่างความเอนเอียงและความแปรปรวนที่ดีกว่า ข้อเสียเปรียบหลักของมันก็คือตัวทำนายทั้งหมดจะถูกเก็บไว้ในแบบจำลองดังนั้นจึงไม่น่าสนใจมากหากคุณมองหาโมเดลที่มีลักษณะเฉพาะหรือต้องการใช้การเลือกคุณลักษณะบางอย่าง

เพื่อให้ได้ Sparsity Lasso นั้นเหมาะสมกว่า แต่ไม่จำเป็นว่าจะต้องให้ผลลัพธ์ที่ดีเมื่อมี collinearity สูง (มันถูกตั้งข้อสังเกตว่าหากตัวทำนายนั้นมีความสัมพันธ์สูงประสิทธิภาพของการทำนายของ Lasso จะถูกครอบงำโดยการถดถอยของสัน) ปัญหาที่สองที่มีการลงโทษ L1 คือการแก้ปัญหา Lasso ไม่ได้ถูกกำหนดโดยเฉพาะเมื่อจำนวนตัวแปรมากกว่าจำนวนของอาสาสมัคร (นี่ไม่ใช่กรณีของการถดถอยของสัน) ข้อเสียเปรียบครั้งสุดท้ายของบ่วงบาศคือมันมีแนวโน้มที่จะเลือกเพียงตัวแปรเดียวในกลุ่มนักทำนายที่มีความสัมพันธ์แบบคู่สูง ในกรณีนี้มีวิธีการแก้ปัญหาทางเลือกเช่นกลุ่ม (เช่นบรรลุการหดตัวในบล็อกของ covariates นั่นคือบางส่วนของสัมประสิทธิ์การถดถอยมีค่าเป็นศูนย์) หรือหลอมรวมเชือก กราฟิกเชือกยังมีคุณสมบัติที่มีแนวโน้มสำหรับ GGMs (ดูการ R glassoแพคเกจ)

แต่แน่นอนที่elasticnetเกณฑ์ซึ่งเป็นส่วนผสมของ L1 และ L2 ลงโทษบรรลุทั้งการหดตัวและการเลือกตัวแปรโดยอัตโนมัติและจะช่วยให้เพื่อให้ตัวแปรในกรณีที่พี ตาม Zou และ Hastie (2005) มันถูกกำหนดเป็นอาร์กิวเมนต์ที่ย่อเล็กสุด (มากกว่า ) $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

โดยที่และ. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Lasso สามารถคำนวณได้ด้วยอัลกอริทึมตามพิกัดโคตรตามที่อธิบายไว้ในรายงานล่าสุดโดย Friedman และ coll., เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทาง Coordinate Descent (JSS, 2010) หรืออัลกอริธึม LARS ในการวิจัยการลงโทษ , ลาร์สหรือbiglarsและglmnetแพคเกจแพคเกจที่มีประโยชน์; ใน Python มีชุดเครื่องมือscikit.learnพร้อมด้วยเอกสารที่ครอบคลุมเกี่ยวกับอัลกอริทึมที่ใช้ในการใช้รูปแบบการทำให้เป็นมาตรฐานทั้งสามแบบ

สำหรับการอ้างอิงทั่วไปหน้า Lassoมีสิ่งที่จำเป็นในการเริ่มต้นกับการถดถอยแบบ Lasso และรายละเอียดทางเทคนิคเกี่ยวกับการลงโทษ L1 และคำถามที่เกี่ยวข้องนี้มีการอ้างอิงที่สำคัญฉันควรใช้ Lasso กับสันเขาเมื่อใด

— CHL
แหล่งที่มา

1

ถ้าฉันมีข้อสังเกตมากมายที่มีตัวแปรค่อนข้างน้อย แต่อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก ในความเป็นจริงต่ำเหลือเกินว่าการบรรจุมากเกินไปเป็นปัญหาที่แท้จริงมาก การทำให้เป็นมาตรฐานจะเป็นสิ่งที่สมเหตุสมผลในการลองและดูเพื่อปรับปรุงความแม่นยำในการทำนาย

— NPE

1

@aix มันขึ้นอยู่กับสิ่งที่คุณเรียกว่าตัวแปรน้อยและชนิดของตัวแปรที่คุณกำลังเผชิญอยู่ แต่ฉันคิดว่าวิธีสันเขาเป็นที่ต้องการในกรณีของคุณ คุณสามารถดูที่Boosting Ridge Regression (Tutz & Binder, 2005) การประมาณค่า ML ที่ถูกลงโทษได้ถูกเสนอเป็นวิธีการในตัวเพื่อป้องกันการ overfitting; ดูเช่นการประมาณค่าความน่าจะเป็นสูงสุดที่ถูกลงโทษเพื่อคาดการณ์ผลลัพธ์ไบนารี: ดวงจันทร์ KG, Donders AR, Steyerberg EW, Harrell FE เจ. คลีนิก Epidemiol 2004, 57 (12): 1262–70

— chl

20

เหตุผลทางทฤษฎีสำหรับการใช้สันเขาถดถอยคือคำตอบของมันคือค่าเฉลี่ยหลังให้เป็นปกติก่อนสัมประสิทธิ์ นั่นคือถ้าคุณสนใจข้อผิดพลาดกำลังสองและคุณเชื่อในเรื่องปกติก่อนหน้านี้การประเมินสันจะเหมาะสมที่สุด

ในทำนองเดียวกันการประมาณการแบบบาศเป็นโหมดด้านหลังภายใต้เลขชี้กำลังสองเท่าก่อนสัมประสิทธิ์ของคุณ นี่เป็นวิธีที่ดีที่สุดภายใต้ฟังก์ชั่นการสูญเสียศูนย์

ในทางปฏิบัติเทคนิคเหล่านี้มักจะปรับปรุงความแม่นยำในการคาดการณ์ในสถานการณ์ที่คุณมีตัวแปรที่สัมพันธ์กันจำนวนมากและไม่มีข้อมูลจำนวนมาก ในขณะที่ตัวประมาณค่า OLS เป็นแบบเส้นตรงที่ดีที่สุด แต่ก็มีความแปรปรวนสูงในสถานการณ์เหล่านี้ หากคุณดูการแลกเปลี่ยนความแปรปรวนแบบอคติความแม่นยำในการทำนายจะเพิ่มขึ้นเนื่องจากการเพิ่มขึ้นเล็กน้อยในอคตินั้นถูกชดเชยโดยการลดลงของความแปรปรวนจำนวนมาก

— ncray
แหล่งที่มา