ความเสถียรเชิงตัวเลขและการ overfitting มีความเกี่ยวข้องกับประเด็นต่างๆ แต่มีความแตกต่างกัน
ปัญหา OLS แบบคลาสสิก:
พิจารณาปัญหากำลังสองน้อยสุดคลาสสิก:
minimize(over b)(y−Xb)T(y−Xb)
การแก้ปัญหาคือคลาสสิก{y}) แนวคิดก็คือโดยกฎของคนจำนวนมาก:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
ดังนั้นการประมาณ OLSก็เข้าหาY] (ในเชิงพีชคณิตเชิงเส้นนี่คือการประมาณเชิงเส้นของตัวแปรสุ่มบนช่วงเชิงเส้นของตัวแปรสุ่ม )b^E[xx′]−1E[xy]yx1,x2,…,xk
ปัญหา?
โดยอัตโนมัติสิ่งที่ผิดไป ปัญหาที่เป็นไปได้คืออะไร?
- สำหรับตัวอย่างเล็ก ๆ การประมาณตัวอย่างของและอาจไม่ดีE[xx′]E[xy]
- หากคอลัมน์ของเป็น collinear (อาจเป็นเพราะ collinearity โดยธรรมชาติหรือขนาดตัวอย่างเล็ก) ปัญหาจะมีการแก้ปัญหาอย่างต่อเนื่อง! วิธีแก้ปัญหาอาจไม่ซ้ำกัน
X
- สิ่งนี้จะเกิดขึ้นหากมีอันดับไม่เพียงพอE[xx′]
- สิ่งนี้จะเกิดขึ้นหากมีอันดับบกพร่องเนื่องจากขนาดตัวอย่างเล็ก ๆ เมื่อเทียบกับจำนวนของปัญหาการถดถอยX′X
ปัญหา (1) สามารถนำไปสู่การ overfitting เนื่องจากการประมาณเริ่มสะท้อนรูปแบบในตัวอย่างที่ไม่มีในประชากรต้นแบบ การประมาณอาจสะท้อนรูปแบบในและที่ไม่มีอยู่จริงในและb^1nX′X1nX′yE[xx′]E[xy]
ปัญหา (2) หมายถึงวิธีการแก้ไขที่ไม่ซ้ำกัน ลองนึกภาพเรากำลังพยายามประเมินราคาของรองเท้าแต่ละคู่ แต่รองเท้าคู่นั้นจะขายกันเสมอ นี่เป็นปัญหาที่ไม่ดี แต่สมมติว่าเรากำลังทำอยู่ เราอาจเชื่อว่าราคารองเท้าด้านซ้ายบวกกับราคารองเท้าที่เหมาะสมเท่ากับ$ 50 แต่เราจะหาราคาแยกต่างหากได้อย่างไร การตั้งค่าราคารองเท้าซ้ายและราคารองเท้าขวาตกลงหรือไม่ เราจะเลือกจากความเป็นไปได้ทั้งหมดได้อย่างไร?pl=45pr=5
แนะนำการลงโทษ :L2
พิจารณาตอนนี้:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
สิ่งนี้อาจช่วยเราในการแก้ไขปัญหาทั้งสองประเภท การลงโทษทำให้เราประเมินเป็นศูนย์ ฟังก์ชั่นนี้ได้อย่างมีประสิทธิภาพเป็นแบบเบย์ก่อนว่าการกระจายมากกว่าค่าสัมประสิทธิ์จะแน่นิ่ง{0} ที่ช่วยในเรื่องการมีน้ำหนักเกิน การประมาณของเราจะสะท้อนทั้งข้อมูลและความเชื่อเริ่มต้นของเราที่ใกล้ศูนย์L2b0b
L2ทำให้เป็นทำให้เราพบทางออกที่เป็นเอกลักษณ์สำหรับปัญหาที่ไม่ดี ถ้าเรารู้ราคาของรองเท้าด้านซ้ายและขวารวมไปการแก้ปัญหาที่ยังลดบรรทัดฐานคือการเลือก25$50L2pl=pr=25
ความมหัศจรรย์นี้หรือไม่? ไม่การทำให้เป็นมาตรฐานไม่เหมือนกับการเพิ่มข้อมูลที่จะทำให้เราสามารถตอบคำถามได้ กูในความรู้สึกบาง adopts เห็นว่าถ้าคุณขาดข้อมูลที่เลือกประมาณการใกล้ชิดกับ0L20