ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง


59

ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeแตกต่างจากβOLSโดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XXXอันที่จริง

βOLS=(XX)1Xy
  1. หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด

  2. ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

คำตอบ:


76

ในการถดถอยแบบไม่ผ่านคุณสามารถรับสัน * ในพื้นที่พารามิเตอร์ซึ่งค่าที่แตกต่างกันมากมายตามสันเขาทำได้ดีหรือใกล้เคียงกับเกณฑ์กำลังสองน้อยที่สุด

* (อย่างน้อยก็เป็นสันเขาในฟังก์ชั่นความน่าจะเป็น - พวกเขากำลังจริงหุบเขา $ ในเกณฑ์ RSS แต่ฉันจะยังคงที่จะเรียกมันสันเขาเช่นนี้ดูเหมือนว่าจะมีการชุมนุม - หรือแม้กระทั่งเป็นจุดที่อเล็กซิส ในความคิดเห็นฉันสามารถเรียกthalwegว่าเป็นคู่ของหุบเขา)

ในการปรากฏตัวของสันเขาในเกณฑ์กำลังสองน้อยที่สุดในพื้นที่พารามิเตอร์การลงโทษที่คุณได้รับจากการถดถอยสันจะกำจัดสันเขาเหล่านั้นโดยการผลักดันเกณฑ์ขึ้นมาเป็นพารามิเตอร์ที่อยู่ห่างจากแหล่งกำเนิด:

ป้อนคำอธิบายรูปภาพที่นี่
[ ภาพที่ชัดเจนขึ้น ]

ในพล็อตแรกการเปลี่ยนแปลงขนาดใหญ่ในค่าพารามิเตอร์ (ตามสันเขา) จะสร้างการเปลี่ยนแปลงขนาดเล็กในเกณฑ์ RSS สิ่งนี้อาจทำให้เกิดความไม่แน่นอนเชิงตัวเลข มันมีความไวต่อการเปลี่ยนแปลงเล็กน้อย (เช่นการเปลี่ยนแปลงเล็กน้อยในค่าข้อมูลแม้แต่การตัดหรือการปัดเศษผิดพลาด) การประมาณค่าพารามิเตอร์มีความสัมพันธ์กันอย่างสมบูรณ์แบบ คุณอาจได้รับการประมาณค่าพารามิเตอร์ที่มีขนาดใหญ่มาก

ในทางตรงกันข้ามโดยการยกสิ่งที่สันเขาถดถอยลดลง (โดยเพิ่มการลงโทษ ) เมื่อพารามิเตอร์อยู่ห่างจาก 0 การเปลี่ยนแปลงเล็กน้อยในเงื่อนไข (เช่นข้อผิดพลาดในการปัดเศษหรือการตัดปลายเล็กน้อย) ไม่สามารถสร้างการเปลี่ยนแปลงขนาดยักษ์ในผลลัพธ์ ประมาณการ ระยะเวลาการลงโทษส่งผลให้การหดตัวเป็น 0 (ทำให้เกิดอคติบาง) อคติเล็กน้อยสามารถซื้อการปรับปรุงที่สำคัญในความแปรปรวน (โดยกำจัดสันเขา)L2

ความไม่แน่นอนของการประมาณการจะลดลง (ข้อผิดพลาดมาตรฐานเกี่ยวข้องกับอนุพันธ์อันดับที่สองซึ่งทำให้เกิดโทษมากขึ้น)

ความสัมพันธ์ในการประมาณการพารามิเตอร์จะลดลง ตอนนี้คุณจะไม่ได้รับการประมาณค่าพารามิเตอร์ที่มีขนาดใหญ่มากหาก RSS สำหรับพารามิเตอร์ขนาดเล็กจะไม่เลวร้ายยิ่งไปกว่านั้น


4
คำตอบนี้จริงๆช่วยให้ฉันเข้าใจการหดตัวและความมั่นคงเชิงตัวเลข อย่างไรก็ตามฉันยังไม่ชัดเจนเกี่ยวกับวิธี "เพิ่มค่าคงที่เล็ก ๆ ลงใน " เพื่อให้ได้สองสิ่งนี้ XX
ไฮเซนเบิร์ก

4
การเพิ่มค่าคงที่ในแนวทแยง * จะเหมือนกับการเพิ่ม paraboloid แบบวงกลมตรงกลางที่ไปที่ RSS (พร้อมผลลัพธ์ที่แสดงด้านบน - มัน "ดึงขึ้น" ห่างจากศูนย์ - กำจัดสัน) * (ไม่จำเป็นต้องเล็กมันขึ้นอยู่กับว่าคุณมองมันอย่างไรและเพิ่มไปเท่าไหร่)0
Glen_b

6
Glen_b ตรงข้ามของ "สัน" ในภาษาอังกฤษที่คุณกำลังมองหา (เส้นทางที่ / โค้งไปตามพื้นหุบเขา) เป็นthalweg ซึ่งฉันเพิ่งเรียนรู้เกี่ยวกับสองสัปดาห์ที่ผ่านมาและเพียงรัก มันฟังดูไม่เหมือนคำภาษาอังกฤษเลย! : D
Alexis

5
@Alexis ไม่ต้องสงสัยเลยว่าจะเป็นคำที่มีประโยชน์ดังนั้นขอบคุณสำหรับสิ่งนั้น มันอาจจะไม่ได้ฟังภาษาอังกฤษเพราะมันเป็นคำภาษาเยอรมัน (อันที่จริงแล้วthalเหมือนกับ 'thal' เหมือนกับใน " Neanderthal " = "Neander valley" และweg = 'way') [ขณะที่มันกำลังฉันต้องการ "สัน" ไม่ได้เพราะผมไม่ได้คิดว่าจะเรียกมันว่า แต่เป็นเพราะคนที่ดูเหมือนจะเรียกมันว่าสันเขาไม่ว่าพวกเขากำลังมองหาที่โอกาสหรือ RSS และฉันถูกอธิบายความปรารถนาของฉันที่จะปฏิบัติตาม การประชุมแม้ว่ามันจะแปลก Thalwegจะเป็นทางเลือกที่ยอดเยี่ยมสำหรับคำพูดที่ถูกต้องถ้าฉันไม่ทำตามการประชุมที่แปลก ๆ ]
Glen_b

4
X เกือบจะกลายเป็นเมทริกซ์ไม่ได้ของการจัดอันดับอย่างเต็มรูปแบบ (และด้วยเหตุนี้ X'X เกือบจะกลายเป็นเอกพจน์) ว่าเมื่อสันเขาปรากฏในโอกาส สันเขาเป็นผลโดยตรงของความสัมพันธ์เชิงเส้นตรงเกือบระหว่างคอลัมน์ของซึ่งทำให้ s (เกือบ) ขึ้นอยู่เชิงเส้น Xβ
Glen_b

28

+1 ในภาพประกอบของ Glen_b และความคิดเห็นสถิติเกี่ยวกับตัวประมาณค่าริดจ์ ฉันแค่อยากจะเพิ่ม pov (พีชคณิตเชิงเส้น) ทางคณิตศาสตร์ล้วนๆในการถดถอยของแนวสันซึ่งตอบคำถามโอพีเอส 1) และ 2)

สิ่งแรกที่คือเมทริกซ์ semidefinite บวกสมมาตร -คูณเมทริกซ์ความแปรปรวนร่วมตัวอย่าง ดังนั้นมันจึงมีการย่อยสลายไอเก็นXXp×pn

XX=VDV,D=[d1dp],di0

ตอนนี้เนื่องจากเมทริกซ์ผกผันสอดคล้องกับการกลับกันของค่าลักษณะเฉพาะค่าประมาณ OLS ต้องการ (สังเกตว่า ) เห็นได้ชัดว่างานนี้เฉพาะในกรณีที่ค่าลักษณะเฉพาะทุกอย่างเคร่งครัดมากกว่าศูนย์0 สำหรับสิ่งนี้เป็นไปไม่ได้ สำหรับมันอยู่ในความจริงทั่วไป - นี่คือว่าเราเป็นมักจะมีความกังวลกับพหุ(XX)1=VD1VV=V1di>0pnnp

ในฐานะนักสถิติเรายังต้องการทราบว่าการรบกวนในข้อมูลเปลี่ยนแปลงการประมาณการ เป็นที่ชัดเจนว่าการเปลี่ยนแปลงเล็กน้อยในใด ๆนำไปสู่การเปลี่ยนแปลงครั้งใหญ่ในถ้ามีขนาดเล็กมากXdi1/didi

ดังนั้นการถดถอยของสันเขาคือการย้ายค่าลักษณะเฉพาะทั้งหมดให้ห่างจากศูนย์เช่น

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
ซึ่งขณะนี้มีลักษณะเฉพาะ0 นี่คือเหตุผลที่เลือกพารามิเตอร์โทษบวกทำให้เมทริกซ์ผกผัน - แม้ในกรณี สำหรับการถดถอยของสันการแปรผันเล็กน้อยในข้อมูลนั้นไม่มีผลกระทบที่ไม่แน่นอนอีกต่อไปที่เกิดขึ้นกับเมทริกซ์ผกผันdi+λλ0pnX

เสถียรภาพเชิงตัวเลขเกี่ยวข้องกับการหดตัวเป็นศูนย์เนื่องจากทั้งคู่เป็นผลมาจากการเพิ่มค่าคงที่ที่เป็นบวกให้กับค่าลักษณะเฉพาะ: ทำให้มีเสถียรภาพมากขึ้นเนื่องจากการก่อกวนเล็ก ๆ ในไม่เปลี่ยนการผกผันมากเกินไป มันหดมันใกล้เคียงกับตั้งแต่ตอนนี้ระยะคูณซึ่งเป็นผู้ใกล้ชิดกับศูนย์กว่าการแก้ปัญหา OLS กับค่าลักษณะเฉพาะผกผันdX0V1Xy1/(di+λ)1/d


2
คำตอบนี้เป็นที่น่าพอใจในการตอบพีชคณิตส่วนหนึ่งของคำถามของฉัน! เมื่อรวมกับคำตอบของ Glen_b ทำให้สามารถอธิบายปัญหาได้อย่างสมบูรณ์
ไฮเซนเบิร์ก

17

การสาธิตของ @ Glen_b นั้นยอดเยี่ยม ฉันจะเพิ่มที่นอกเหนือจากสาเหตุที่แท้จริงของปัญหาและคำอธิบายเกี่ยวกับวิธีการทำงานของการถดถอยการลงโทษที่มีกำลังสองมีบรรทัดล่างที่การลงโทษมีผลสุทธิของการหดตัวสัมประสิทธิ์อื่น ๆ นอกเหนือจากการสกัดกั้นเป็นศูนย์ นี่เป็นวิธีแก้ปัญหาโดยตรงของการ overfitting ที่มีอยู่ในการวิเคราะห์การถดถอยส่วนใหญ่เมื่อขนาดตัวอย่างไม่ใหญ่หลวงเมื่อเทียบกับจำนวนของการประมาณค่าพารามิเตอร์ การลงโทษใด ๆ ที่มีค่าเป็นศูนย์สำหรับการสกัดกั้นที่ไม่เป็นไปเพื่อปรับปรุงความแม่นยำในการทำนายมากกว่าโมเดลที่ไม่ถูกลงโทษ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.