อะไรคือข้อดีของการถดถอยแบบขั้นตอน


11

ฉันกำลังทดลองกับการถดถอยแบบขั้นตอนเพื่อเห็นแก่ความหลากหลายในแนวทางการแก้ไขปัญหา ดังนั้นฉันมี 2 คำถาม:

  1. อะไรคือข้อดีของการถดถอยแบบขั้นตอน จุดเด่นเฉพาะคืออะไร

  2. คุณคิดอย่างไรเกี่ยวกับวิธีการไฮบริดที่คุณใช้การถดถอยแบบขั้นตอนเพื่อเลือกคุณสมบัติแล้วใช้การถดถอยปกติโดยนำคุณสมบัติที่เลือกทั้งหมดมารวมกัน

คำตอบ:


15

ข้อได้เปรียบหลักของการถดถอยแบบขั้นตอนก็คือมันมีประสิทธิภาพในการคำนวณ อย่างไรก็ตามประสิทธิภาพโดยทั่วไปจะแย่กว่าวิธีอื่น ปัญหาคือมันโลภมากเกินไป เมื่อทำการเลือกอย่างหนักบนตัวถอยหลังถัดไปและ 'การแช่แข็ง' น้ำหนักจะทำให้ตัวเลือกที่เหมาะสมที่สุดในแต่ละขั้นตอน แต่ไม่ได้ผลดีโดยทั่วไป และไม่สามารถกลับไปแก้ไขตัวเลือกในอดีตได้

เท่าที่ฉันทราบการถดถอยแบบขั้นตอนโดยทั่วไปมักไม่ได้รับความนิยมเมื่อเทียบกับการถดถอยตามปกติของ (LASSO) ซึ่งมีแนวโน้มที่จะสร้างทางออกที่ดีกว่าl1

Tibshirani (1996) การหดตัวและการเลือกการถดถอยผ่าน Lasso

LASSO ลงโทษบรรทัดฐานของน้ำหนักซึ่งทำให้เกิดการกระจัดกระจายในการแก้ปัญหา (น้ำหนักจำนวนมากถูกบังคับให้เป็นศูนย์) ดำเนินการเลือกตัวแปร (ตัวแปร 'ที่เกี่ยวข้อง' ได้รับอนุญาตให้มีค่าที่ไม่ใช่ศูนย์) ระดับของการ sparsity ถูกควบคุมโดยคำว่าการลงโทษและขั้นตอนบางอย่างจะต้องใช้เพื่อเลือก (การตรวจสอบข้ามเป็นทางเลือกทั่วไป) LASSO มีความเข้มข้นในการคำนวณมากกว่าการถดถอยแบบขั้นตอน แต่มีอัลกอริธึมที่มีประสิทธิภาพจำนวนหนึ่งอยู่ ตัวอย่างบางส่วนน้อยถดถอยมุม ( LARS ) และวิธีการขึ้นอยู่กับการประสานงานโคตรl1

แนวทางที่คล้ายกับสิ่งที่คุณแนะนำใน (2) เรียกว่าการแสวงหาการจับคู่แบบฉาก มันเป็นลักษณะทั่วไปของการจับคู่การจับคู่ซึ่งเป็นชื่อสำหรับการถดถอยแบบขั้นตอนในวรรณคดีการประมวลสัญญาณ

Pati และคณะ (1993) การค้นหาการจับคู่ฉาก: การประมาณฟังก์ชั่นซ้ำกับการใช้งานเพื่อการสลายตัวของเวฟเล็ต

ในการวนซ้ำแต่ละครั้งตัวถดถอยที่ดีที่สุดถัดไปจะถูกเพิ่มเข้าไปในชุดที่ใช้งานอยู่ จากนั้นน้ำหนักของ regressors ทั้งหมดในชุดที่ใช้งานจะถูกคำนวณใหม่ เนื่องจากขั้นตอนการทำให้น้ำหนักซ้ำวิธีนี้จึงโลภน้อยกว่าและมีประสิทธิภาพที่ดีกว่าการติดตามการจับคู่ / ถดถอยแบบขั้นตอน แต่มันก็ยังใช้วิธีแก้ปัญหาการค้นหาแบบโลภ

วิธีการทั้งหมดเหล่านี้ (การถดถอยแบบขั้นตอน, LASSO และการติดตามการจับคู่มุมฉาก) สามารถคิดได้ว่าเป็นการประมาณปัญหาต่อไปนี้:

minwyXw22s.t. w0c

ในบริบทการถดถอยคอลัมน์ของสอดคล้องกับตัวแปรอิสระและกับตัวแปรตาม ในการประมวลผลสัญญาณคอลัมน์ของจะสอดคล้องกับฟังก์ชั่นพื้นฐานและคือสัญญาณไปยังค่าประมาณ เป้าหมายคือการหาชุดเบาบางของน้ำหนักที่ให้ที่ดีที่สุด (สี่เหลี่ยมน้อย) ประมาณปีบรรทัดฐานเพียงแค่นับจำนวนของที่ไม่ใช่ศูนย์รายการในWน่าเสียดายที่ปัญหานี้เป็นปัญหาแบบ NP-hard ดังนั้นจึงต้องใช้อัลกอริทึมการประมาณในการปฏิบัติ การถดถอยแบบขั้นตอนและการติดตามการจับคู่มุมฉากพยายามที่จะแก้ปัญหาโดยใช้กลยุทธ์การค้นหาโลภ LASSO ปรับโครงสร้างปัญหาใหม่โดยใช้การผ่อนคลายXyXywyl0wl0 norm กับ norm ที่นี่ปัญหาการปรับให้เหมาะสมจะกลายเป็นนูน และถึงแม้ว่าปัญหาจะไม่เหมือนกันอีกต่อไปการแก้ปัญหาจะคล้ายกัน ถ้าฉันจำได้อย่างถูกต้องทั้งการจับคู่แบบ LASSO และ orthogonal นั้นได้รับการพิสูจน์แล้วว่าสามารถแก้ไขปัญหาได้อย่างแน่นอนภายใต้เงื่อนไขบางประการl1


8

การเลือกตามขั้นตอนไม่ใช่ความคิดที่ดี จะเข้าใจว่าทำไมมันอาจช่วยให้คุณอ่านคำตอบของฉันที่นี่: อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ

เท่าที่มีข้อได้เปรียบไปในวันที่ค้นหาคุณสมบัติที่เป็นไปได้ทั้งหมดนั้นมีจำนวนคอมพิวเตอร์มากเกินกว่าที่คอมพิวเตอร์จะจัดการได้ อย่างไรก็ตามโปรดทราบว่าปัญหาที่กล่าวถึงในคำตอบที่เชื่อมโยงของฉันข้างต้นมีผลกับการถดถอย 'ชุดย่อยที่ดีที่สุด' ดังนั้นการทำตามขั้นตอนจึงไม่ได้เป็นวิธีแก้ปัญหาที่ดี

ความคิดของคุณวิธีไฮบริดจะดีตราบใดที่รูปแบบที่สอง (พร้อมกับคุณสมบัติที่เลือก) ก็พอดีในชุดข้อมูลใหม่


เกี่ยวกับสิ่งที่ OP เรียกว่า "วิธีไฮบริด" (ไม่แน่ใจว่าทำไมมันถึงเป็นไฮบริด) คุณหมายความว่ามันดีในแง่ที่การประมาณค่าสัมประสิทธิ์ของโมเดลในชุดข้อมูลใหม่ที่สองควรจะดี (ในขณะที่เอนเอียงและมีปัญหา ข้อมูลดั้งเดิม) ตราบใดที่ชุดข้อมูลใหม่มีขนาดใหญ่พอ แน่นอนว่ามันอาจเป็นแบบจำลองที่ไม่ดีเพราะมันถูกเลือกในชุดข้อมูลชุดแรกไม่ดีเพียงแค่มีค่าสัมประสิทธิ์ประมาณในชุดข้อมูลที่มีปัญหาน้อยกว่า
Björn

และบ่อยครั้งที่มันเป็นไปไม่ได้ที่จะมองผ่านชุดค่าผสมที่เป็นไปได้ทั้งหมดเนื่องจากจำนวนของตัวแปรต่าง ๆ ที่เรามีข้อมูลเพิ่มขึ้นเร็วกว่าพลังในการคำนวณและผู้คนมีความคิดเพิ่มมากขึ้น
เตฟาน Kolassa

อ่านหัวข้อที่ยังคงไม่เป็นประโยชน์
Mox

2

ฉันเพิ่งค้นหา google เพื่อหาการถดถอยแบบขั้นตอน ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้หรือไม่ แต่นี่เป็นความคิดแรกของฉัน

  • มันเป็นโลภมากดังนั้นจึงไม่สามารถสร้างทางออกที่ดีเช่นเดียวกับ Lasso ฉันชอบ Lasso
  • มันง่ายใช้งานง่ายและง่ายต่อการรหัส
  • หลังจากที่คุณใช้การถดถอยแบบขั้นตอนคุณจะได้รุ่นที่ผ่านการฝึกอบรมแล้วซึ่งใช้คุณสมบัติที่เลือกไว้ดังนั้นคุณไม่จำเป็นต้องใช้ขั้นตอนการถดถอยอื่น ๆ ตามที่คุณกล่าวถึงเป็นวิธีไฮบริด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.