เหตุใดการถดถอยของ Ridge จึงทำงานได้ดีในที่ที่มีความสัมพันธ์หลายระดับ?


14

ฉันกำลังเรียนรู้เกี่ยวกับการถดถอยของสันเขาและรู้ว่าการถดถอยของสันเขานั้นมีแนวโน้มที่จะทำงานได้ดีขึ้นเมื่อมีความหลากหลายทางชีวภาพ ฉันสงสัยว่าทำไมสิ่งนี้ถึงเป็นจริง ทั้งคำตอบที่ใช้งานง่ายหรือคำตอบทางคณิตศาสตร์ก็น่าพอใจ (คำตอบทั้งสองประเภทนั้นน่าพอใจยิ่งขึ้น)

นอกจากนี้ฉันรู้ว่าสามารถรับได้เสมอ แต่การถดถอยของสันจะทำงานได้ดีเพียงใดเมื่อมี collinearity ที่แน่นอน (ตัวแปรอิสระตัวหนึ่งคือฟังก์ชันเชิงเส้นของอีกตัวหนึ่ง)β^


5
เกี่ยวกับคำถามที่สองของคุณ: หากคุณมี colinearity แน่นอนคุณสามารถลบตัวแปรตัวใดตัวหนึ่งได้ คุณไม่จำเป็นต้องถดถอยลง
Peter Flom - Reinstate Monica

คำตอบ:


13

พิจารณากรณีง่าย ๆ ของตัวแปรทำนาย 2 ตัว ( , ) หากไม่มีค่า colinearity และการแพร่กระจายที่ดีในตัวทำนายทั้งสองเราจะทำการปรับระนาบให้เข้ากับข้อมูล (x1x2yคือมิติที่ 3) และมักจะมีระนาบ "ดีที่สุด" ที่ชัดเจนมาก แต่ด้วยความ Colinearity ความสัมพันธ์เป็นเส้นผ่านพื้นที่สามมิติโดยมีข้อมูลกระจัดกระจายอยู่รอบ ๆ แต่รูทีนการถดถอยพยายามที่จะพอดีกับระนาบกับหนึ่งเส้นดังนั้นจึงมีจำนวนอนันต์ของระนาบที่ตัดกันอย่างสมบูรณ์แบบกับเส้นนั้นซึ่งระนาบที่เลือกนั้นขึ้นอยู่กับจุดที่มีอิทธิพลในข้อมูลเปลี่ยนหนึ่งในจุดเหล่านั้นเพียงเล็กน้อย เครื่องบินที่เหมาะสมที่สุดจะเปลี่ยนไปเล็กน้อย การถดถอยสันคือการดึงระนาบที่เลือกไปยังแบบจำลองที่เรียบง่าย / saner (ค่าอคติต่อ 0) ลองนึกถึงยางรัดจากต้นกำเนิด (0,0,0) ไปยังระนาบที่ดึงระนาบไปที่ 0 ในขณะที่ข้อมูลจะดึงออกไปเพื่อการประนีประนอมที่ดี


@Trynna มีรูปภาพที่อธิบายถึงสิ่งที่เกร็กพูดถึงเกี่ยวกับปัญหาเรื่องความเป็นคู่
ttnphns

1
นี่เป็นคำอธิบายทางเรขาคณิตที่ดีมากเกี่ยวกับสาเหตุที่ความหลากหลายของสีเป็นปัญหาในการถดถอย OLS! แต่ฉันก็ยังไม่เข้าใจว่าทำไมการดึงระนาบไปที่ต้นกำเนิดช่วยแก้ปัญหาได้
TrynnaDoStat

2
@TrynnaDoStat ความกังวลหลักคือความแปรปรวนของการประมาณค่าด้วย multicolinearity การเปลี่ยนแปลงเล็กน้อยในจุดข้อมูลเดียวสามารถแกว่งค่าสัมประสิทธิ์การประเมินอย่างดุเดือด (โดยไม่มีอคติ) โดยการให้น้ำหนักต่อ 0 มีการเปลี่ยนแปลงไม่มากนักในการประมาณค่าสัมประสิทธิ์ (เนื่องจากแถบยางดึงเข้าหา 0) โดยมีการเปลี่ยนแปลงเล็กน้อยในจุดข้อมูลเดียวทำให้ลดความแปรปรวนได้
เกร็กสโนว์

ขอบคุณ @ttnphns สำหรับลิงก์ไปยังรูปภาพ: ไม่เป็นไรมันเป็นเรื่องดีที่จะได้รับคำตอบ ตอนนี้คำตอบของ Greg ชัดเจนและสิ่งที่ฉันต้องการเพื่อทำความเข้าใจบรรทัดนี้ใน ESLII (2nd ed.): "สัมประสิทธิ์เชิงบวกที่มีขนาดใหญ่มากในตัวแปรหนึ่งสามารถถูกยกเลิกได้โดยสัมประสิทธิ์เชิงลบที่มีขนาดใหญ่ในทำนองเดียวกัน ค่าสัมประสิทธิ์ปัญหานี้ได้ลดลง "
Tommaso Guerrini
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.