เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย


83

ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS?

ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

คำตอบ:


75

คำตอบสั้น ๆ : เมื่อใดก็ตามที่คุณเผชิญหนึ่งในสถานการณ์เหล่านี้:

  • ตัวแปรจำนวนมากหรืออัตราส่วนต่ำไม่มี ข้อสังเกตที่ไม่ ตัวแปร (รวมถึงกรณี )np
  • collinearity สูง
  • การค้นหาวิธีแก้ปัญหาแบบเบาบาง (เช่นการเลือกคุณลักษณะแบบฝังเมื่อประเมินพารามิเตอร์โมเดล) หรือ
  • การบัญชีสำหรับกลุ่มตัวแปรในชุดข้อมูลมิติสูง

การถดถอยของสันเขามักให้ผลการคาดการณ์ที่ดีกว่าวิธีการ OLS ผ่านการประนีประนอมระหว่างความเอนเอียงและความแปรปรวนที่ดีกว่า ข้อเสียเปรียบหลักของมันก็คือตัวทำนายทั้งหมดจะถูกเก็บไว้ในแบบจำลองดังนั้นจึงไม่น่าสนใจมากหากคุณมองหาโมเดลที่มีลักษณะเฉพาะหรือต้องการใช้การเลือกคุณลักษณะบางอย่าง

เพื่อให้ได้ Sparsity Lasso นั้นเหมาะสมกว่า แต่ไม่จำเป็นว่าจะต้องให้ผลลัพธ์ที่ดีเมื่อมี collinearity สูง (มันถูกตั้งข้อสังเกตว่าหากตัวทำนายนั้นมีความสัมพันธ์สูงประสิทธิภาพของการทำนายของ Lasso จะถูกครอบงำโดยการถดถอยของสัน) ปัญหาที่สองที่มีการลงโทษ L1 คือการแก้ปัญหา Lasso ไม่ได้ถูกกำหนดโดยเฉพาะเมื่อจำนวนตัวแปรมากกว่าจำนวนของอาสาสมัคร (นี่ไม่ใช่กรณีของการถดถอยของสัน) ข้อเสียเปรียบครั้งสุดท้ายของบ่วงบาศคือมันมีแนวโน้มที่จะเลือกเพียงตัวแปรเดียวในกลุ่มนักทำนายที่มีความสัมพันธ์แบบคู่สูง ในกรณีนี้มีวิธีการแก้ปัญหาทางเลือกเช่นกลุ่ม (เช่นบรรลุการหดตัวในบล็อกของ covariates นั่นคือบางส่วนของสัมประสิทธิ์การถดถอยมีค่าเป็นศูนย์) หรือหลอมรวมเชือก กราฟิกเชือกยังมีคุณสมบัติที่มีแนวโน้มสำหรับ GGMs (ดูการ R glassoแพคเกจ)

แต่แน่นอนที่elasticnetเกณฑ์ซึ่งเป็นส่วนผสมของ L1 และ L2 ลงโทษบรรลุทั้งการหดตัวและการเลือกตัวแปรโดยอัตโนมัติและจะช่วยให้เพื่อให้ตัวแปรในกรณีที่พี ตาม Zou และ Hastie (2005) มันถูกกำหนดเป็นอาร์กิวเมนต์ที่ย่อเล็กสุด (มากกว่า )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

โดยที่และ.β2=j=1pβj2β1=j=1p|βj|

Lasso สามารถคำนวณได้ด้วยอัลกอริทึมตามพิกัดโคตรตามที่อธิบายไว้ในรายงานล่าสุดโดย Friedman และ coll., เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทาง Coordinate Descent (JSS, 2010) หรืออัลกอริธึม LARS ในการวิจัยการลงโทษ , ลาร์สหรือbiglarsและglmnetแพคเกจแพคเกจที่มีประโยชน์; ใน Python มีชุดเครื่องมือscikit.learnพร้อมด้วยเอกสารที่ครอบคลุมเกี่ยวกับอัลกอริทึมที่ใช้ในการใช้รูปแบบการทำให้เป็นมาตรฐานทั้งสามแบบ

สำหรับการอ้างอิงทั่วไปหน้า Lassoมีสิ่งที่จำเป็นในการเริ่มต้นกับการถดถอยแบบ Lasso และรายละเอียดทางเทคนิคเกี่ยวกับการลงโทษ L1 และคำถามที่เกี่ยวข้องนี้มีการอ้างอิงที่สำคัญฉันควรใช้ Lasso กับสันเขาเมื่อใด


1
ถ้าฉันมีข้อสังเกตมากมายที่มีตัวแปรค่อนข้างน้อย แต่อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก ในความเป็นจริงต่ำเหลือเกินว่าการบรรจุมากเกินไปเป็นปัญหาที่แท้จริงมาก การทำให้เป็นมาตรฐานจะเป็นสิ่งที่สมเหตุสมผลในการลองและดูเพื่อปรับปรุงความแม่นยำในการทำนาย
NPE

1
@aix มันขึ้นอยู่กับสิ่งที่คุณเรียกว่าตัวแปรน้อยและชนิดของตัวแปรที่คุณกำลังเผชิญอยู่ แต่ฉันคิดว่าวิธีสันเขาเป็นที่ต้องการในกรณีของคุณ คุณสามารถดูที่Boosting Ridge Regression (Tutz & Binder, 2005) การประมาณค่า ML ที่ถูกลงโทษได้ถูกเสนอเป็นวิธีการในตัวเพื่อป้องกันการ overfitting; ดูเช่นการประมาณค่าความน่าจะเป็นสูงสุดที่ถูกลงโทษเพื่อคาดการณ์ผลลัพธ์ไบนารี: ดวงจันทร์ KG, Donders AR, Steyerberg EW, Harrell FE เจ. คลีนิก Epidemiol 2004, 57 (12): 1262–70
chl

20

เหตุผลทางทฤษฎีสำหรับการใช้สันเขาถดถอยคือคำตอบของมันคือค่าเฉลี่ยหลังให้เป็นปกติก่อนสัมประสิทธิ์ นั่นคือถ้าคุณสนใจข้อผิดพลาดกำลังสองและคุณเชื่อในเรื่องปกติก่อนหน้านี้การประเมินสันจะเหมาะสมที่สุด

ในทำนองเดียวกันการประมาณการแบบบาศเป็นโหมดด้านหลังภายใต้เลขชี้กำลังสองเท่าก่อนสัมประสิทธิ์ของคุณ นี่เป็นวิธีที่ดีที่สุดภายใต้ฟังก์ชั่นการสูญเสียศูนย์

ในทางปฏิบัติเทคนิคเหล่านี้มักจะปรับปรุงความแม่นยำในการคาดการณ์ในสถานการณ์ที่คุณมีตัวแปรที่สัมพันธ์กันจำนวนมากและไม่มีข้อมูลจำนวนมาก ในขณะที่ตัวประมาณค่า OLS เป็นแบบเส้นตรงที่ดีที่สุด แต่ก็มีความแปรปรวนสูงในสถานการณ์เหล่านี้ หากคุณดูการแลกเปลี่ยนความแปรปรวนแบบอคติความแม่นยำในการทำนายจะเพิ่มขึ้นเนื่องจากการเพิ่มขึ้นเล็กน้อยในอคตินั้นถูกชดเชยโดยการลดลงของความแปรปรวนจำนวนมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.