หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?


35

ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE"

ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร)

ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก



2
ฉันเห็นลิงก์นั้น มันไม่ตอบคำถาม
Oliver Angelil

คำตอบ:


33

คุณมีสิทธิ์ที่จะถามคำถามนี้ โดยทั่วไปเมื่อใช้กฎการให้คะแนนความแม่นยำที่เหมาะสม (เช่นหมายถึงข้อผิดพลาดการคาดการณ์กำลังสอง) การถดถอยของสันจะมีประสิทธิภาพสูงกว่าบ่วง Lasso ใช้ข้อมูลบางส่วนที่พยายามค้นหาตัวทำนาย "ถูกต้อง" และมันก็ไม่ได้ยอดเยี่ยมในการทำเช่นนั้นในหลาย ๆ กรณี ประสิทธิภาพสัมพัทธ์ของทั้งสองจะขึ้นอยู่กับการกระจายของสัมประสิทธิ์การถดถอยที่แท้จริง หากคุณมีสัมประสิทธิ์ที่ไม่ใช่ศูนย์เพียงเล็กน้อยเศษเสี้ยวจะทำได้ดีกว่า ส่วนตัวผมใช้สันเขาเกือบตลอดเวลาเมื่อสนใจความแม่นยำในการทำนาย


1
มีกรณีใดบ้างที่คุณไม่สนใจความแม่นยำในการทำนาย
Walrus the Cat

1
@WalrustheCat ผู้ใช้งานที่มักจะมาจากมหาวิทยาลัยสแตนฟอร์ดสนับสนุนการใช้ Lasso ในการเลือกตัวแปรระดับสูง สมมุติว่าแฟรงค์หมายถึง "... ส่วนใหญ่สนใจในความแม่นยำในการคาดการณ์" มากกว่าเพียงแค่ "... สนใจในความแม่นยำในการทำนาย" แม้ว่าในความคิดของฉันความแตกต่างระหว่างคนทั้งสองนี้คือ
John Madden

ฉันไม่เคยเข้าใจวิธีการ "ลดขนาดเป็นมิติปกติ" คุณสามารถทำการลดขนาดได้ไม่ว่าจะผ่านการทำให้เป็นมาตรฐาน lasso หรือไม่จากนั้นใช้ฟังก์ชั่นการทำให้เป็นมาตรฐานที่ดีที่สุดสำหรับปัญหาดั้งเดิมของคุณเกี่ยวกับคุณสมบัติที่ได้ แต่ฉันเชือนแช
Walrus the Cat

8
จาก "โดยทั่วไป [... ] การถดถอยของสันจะมีประสิทธิภาพสูงกว่าบ่วงบาศ" และ "ถ้าคุณมีค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์ในความจริงเศษเสี้ยวจะทำงานได้ดีกว่า" ดูเหมือนว่าจะตามมาในปัญหาการทำนายส่วนใหญ่ นี่คือสิ่งที่คุณกำลังพูด?
อะมีบาพูดว่า Reinstate Monica

4
ใช่แล้วส่วนใหญ่ หากคุณรู้ความจริงพื้นฐาน "ในการแจกแจง" คุณจะสร้างการแจกแจงก่อนหน้าแบบเบย์สำหรับค่าสัมประสิทธิ์การถดถอยที่ไม่ทราบค่าซึ่งจะให้ผลลัพธ์ที่ดีที่สุดแก่คุณ และแม้กระทั่งเมื่อพูดว่า 3/4 ของผู้ทำนายมีผลเป็นศูนย์ แต่สันเขาก็สามารถแข่งขันกับเชือกได้
Frank Harrell

10

ฉันคิดว่าการตั้งค่าเฉพาะของตัวอย่างที่คุณอ้างอิงเป็นกุญแจสำคัญในการทำความเข้าใจว่าทำไม lasso ถึงมีประสิทธิภาพเหนือกว่า: มีเพียง 2 จาก 45 ตัวที่เกี่ยวข้องเท่านั้น

เส้นขอบนี้ในกรณีทางพยาธิวิทยา: lasso ซึ่งมีจุดประสงค์เฉพาะเพื่อลดให้เป็นศูนย์ง่ายดำเนินการตามที่ตั้งใจไว้ในขณะที่สันจะต้องจัดการกับคำศัพท์ที่ไร้ประโยชน์จำนวนมาก (แม้ผลของมันจะลดลงใกล้ศูนย์ ผลที่ไม่เป็นศูนย์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.