คำอธิบายที่ชัดเจนสำหรับ "เสถียรภาพเชิงตัวเลขของเมทริกซ์ผกผัน" ในการถดถอยของสันเขาและบทบาทในการลดความพอดี


10

ฉันเข้าใจว่าเราสามารถใช้การทำให้เป็นมาตรฐานในปัญหาการถดถอยกำลังสองน้อยที่สุดเช่น

w=argminw[(yXw)T(yXw)+λw2]

และปัญหานี้มีวิธีแก้ปัญหาแบบปิดเป็น:

w^=(XTX+λI)1XTy.

เราเห็นว่าในสมการที่ 2 การทำให้เป็นมาตรฐานนั้นเป็นการเพิ่มλไปยังแนวทแยงของXTXซึ่งทำเพื่อปรับปรุงเสถียรภาพเชิงตัวเลขของการผกผันเมทริกซ์

ความเข้าใจ 'หยาบ' ปัจจุบันของฉันเกี่ยวกับเสถียรภาพเชิงตัวเลขคือถ้าฟังก์ชั่นมากขึ้น 'เสถียรภาพเชิงตัวเลข' ดังนั้นเอาต์พุตของมันจะได้รับผลกระทบน้อยลงอย่างมากจากเสียงรบกวนในอินพุต ฉันมีปัญหาเกี่ยวกับแนวคิดของความเสถียรเชิงตัวเลขที่ได้รับการปรับปรุงให้ดีขึ้นเพื่อภาพรวมที่ใหญ่ขึ้นว่าจะหลีกเลี่ยง / ลดปัญหาการ overfitting อย่างไร

ฉันลองดูที่Wikipediaและเว็บไซต์มหาวิทยาลัยอื่น ๆ ไม่กี่แห่ง แต่พวกเขาก็ไม่ได้อธิบายอย่างลึกซึ้งว่าทำไมถึงเป็นเช่นนั้น


สันเขาถดถอย ลิงค์
EngrStudent

1
คุณอาจพบคุณค่าบางอย่างในการอภิปราย (ส่วนใหญ่เป็นการพรรณนา / ใช้งานง่ายมากกว่าพีชคณิต) ที่เหตุใดการประมาณสันจึงดีกว่า OLS โดยการเพิ่มค่าคงที่ในแนวทแยง
Glen_b -Reinstate Monica

คำตอบ:


2

ในโมเดลเชิงเส้นสมมติว่ามีข้อผิดพลาดที่ไม่เกี่ยวข้องกับค่าเฉลี่ยศูนย์และมีอันดับคอลัมน์เต็มตัวประมาณกำลังสองน้อยที่สุดเป็นตัวประมาณค่าที่เป็นกลางสำหรับพารามิเตอร์\อย่างไรก็ตามตัวประมาณนี้สามารถมีความแปรปรวนสูง ตัวอย่างเช่นเมื่อคอลัมน์สองคอลัมน์ของมีความสัมพันธ์กันสูงY=Xβ+ϵX(XTX)1XTYβX

พารามิเตอร์การลงโทษทำให้เป็นตัวประมาณค่าความลำเอียงของแต่จะลดความแปรปรวน นอกจากนี้เป็นความคาดหวังหลังของในการถดถอยคชกรรมกับก่อนใน\ในแง่นั้นเรารวมข้อมูลบางอย่างไว้ในการวิเคราะห์ที่บอกว่าองค์ประกอบของไม่ควรอยู่ไกลจากศูนย์ อีกครั้งสิ่งนี้นำเราไปสู่การประมาณค่าจุดหักเหของแต่ลดความแปรปรวนของการประมาณλw^βw^βN(0,1λI)βββ

ในการตั้งค่าที่มิติสูงพูดสี่เหลี่ยมที่น้อยที่สุดจะพอดีกับข้อมูลเกือบสมบูรณ์แบบ แม้ว่าจะไม่เอนเอียง แต่การประมาณการนี้จะมีความไวสูงต่อความผันผวนของข้อมูลเพราะในมิติที่สูงเช่นนี้จะมีหลายจุดที่มีการใช้ประโยชน์สูง ในสถานการณ์เช่นนี้สัญญาณของส่วนประกอบบางอย่างของสามารถกำหนดได้โดยการสังเกตเพียงครั้งเดียว ระยะเวลาการลงโทษมีผลกระทบจากการลดขนาดประมาณการเหล่านี้ไปที่ศูนย์ซึ่งสามารถลด MSE ของตัวประมาณโดยลดความแปรปรวนXNpβ^

แก้ไข: ในการตอบสนองครั้งแรกของฉันฉันให้ลิงค์ไปยังกระดาษที่เกี่ยวข้องและรีบลบออก นี่คือ: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
ในรูปแบบปัจจุบันนี่เป็นความคิดเห็นมากกว่าจริงๆ คุณคิดว่าคุณสามารถแยกมันออกเป็นคำตอบที่สำคัญได้หรือไม่?
Silverfish

ด้านล่างของ p 5 ขวา / ส่วนบนของหน้า เหลือ 6 ที่เกี่ยวข้องกับรูปที่ 3 มีการอภิปรายที่สำคัญสำหรับคำถามที่ถามในโพสต์นี้
Mark L. Stone

ทั้งหมดนี้ถูกต้อง แต่ฉันไม่แน่ใจว่าจะตอบคำถามของ OP
อะมีบา

อะมีบาดูความคิดเห็นของฉันข้างต้นซึ่งหมายถึงการเชื่อมโยงซึ่งได้รับการแก้ไขภายหลังจากคำตอบของเอริค Mittman ของjarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
Mark L. Stone

1

ความเสถียรเชิงตัวเลขและการ overfitting มีความเกี่ยวข้องกับประเด็นต่างๆ แต่มีความแตกต่างกัน

ปัญหา OLS แบบคลาสสิก:

พิจารณาปัญหากำลังสองน้อยสุดคลาสสิก:

minimize(over b)(yXb)T(yXb)

การแก้ปัญหาคือคลาสสิก{y}) แนวคิดก็คือโดยกฎของคนจำนวนมาก:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

ดังนั้นการประมาณ OLSก็เข้าหาY] (ในเชิงพีชคณิตเชิงเส้นนี่คือการประมาณเชิงเส้นของตัวแปรสุ่มบนช่วงเชิงเส้นของตัวแปรสุ่ม )b^E[xx]1E[xy]yx1,x2,,xk

ปัญหา?

โดยอัตโนมัติสิ่งที่ผิดไป ปัญหาที่เป็นไปได้คืออะไร?

  1. สำหรับตัวอย่างเล็ก ๆ การประมาณตัวอย่างของและอาจไม่ดีE[xx]E[xy]
  2. หากคอลัมน์ของเป็น collinear (อาจเป็นเพราะ collinearity โดยธรรมชาติหรือขนาดตัวอย่างเล็ก) ปัญหาจะมีการแก้ปัญหาอย่างต่อเนื่อง! วิธีแก้ปัญหาอาจไม่ซ้ำกัน X
    • สิ่งนี้จะเกิดขึ้นหากมีอันดับไม่เพียงพอE[xx]
    • สิ่งนี้จะเกิดขึ้นหากมีอันดับบกพร่องเนื่องจากขนาดตัวอย่างเล็ก ๆ เมื่อเทียบกับจำนวนของปัญหาการถดถอยXX

ปัญหา (1) สามารถนำไปสู่การ overfitting เนื่องจากการประมาณเริ่มสะท้อนรูปแบบในตัวอย่างที่ไม่มีในประชากรต้นแบบ การประมาณอาจสะท้อนรูปแบบในและที่ไม่มีอยู่จริงในและb^1nXX1nXyE[xx]E[xy]

ปัญหา (2) หมายถึงวิธีการแก้ไขที่ไม่ซ้ำกัน ลองนึกภาพเรากำลังพยายามประเมินราคาของรองเท้าแต่ละคู่ แต่รองเท้าคู่นั้นจะขายกันเสมอ นี่เป็นปัญหาที่ไม่ดี แต่สมมติว่าเรากำลังทำอยู่ เราอาจเชื่อว่าราคารองเท้าด้านซ้ายบวกกับราคารองเท้าที่เหมาะสมเท่ากับ$ 50 แต่เราจะหาราคาแยกต่างหากได้อย่างไร การตั้งค่าราคารองเท้าซ้ายและราคารองเท้าขวาตกลงหรือไม่ เราจะเลือกจากความเป็นไปได้ทั้งหมดได้อย่างไร?pl=45pr=5

แนะนำการลงโทษ :L2

พิจารณาตอนนี้:

minimize(over b)(yXb)T(yXb)+λb2

สิ่งนี้อาจช่วยเราในการแก้ไขปัญหาทั้งสองประเภท การลงโทษทำให้เราประเมินเป็นศูนย์ ฟังก์ชั่นนี้ได้อย่างมีประสิทธิภาพเป็นแบบเบย์ก่อนว่าการกระจายมากกว่าค่าสัมประสิทธิ์จะแน่นิ่ง{0} ที่ช่วยในเรื่องการมีน้ำหนักเกิน การประมาณของเราจะสะท้อนทั้งข้อมูลและความเชื่อเริ่มต้นของเราที่ใกล้ศูนย์L2b0b

L2ทำให้เป็นทำให้เราพบทางออกที่เป็นเอกลักษณ์สำหรับปัญหาที่ไม่ดี ถ้าเรารู้ราคาของรองเท้าด้านซ้ายและขวารวมไปการแก้ปัญหาที่ยังลดบรรทัดฐานคือการเลือก25$50L2pl=pr=25

ความมหัศจรรย์นี้หรือไม่? ไม่การทำให้เป็นมาตรฐานไม่เหมือนกับการเพิ่มข้อมูลที่จะทำให้เราสามารถตอบคำถามได้ กูในความรู้สึกบาง adopts เห็นว่าถ้าคุณขาดข้อมูลที่เลือกประมาณการใกล้ชิดกับ0L20

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.