มีข้อผิดพลาดในการทำนายที่แตกต่างกันสามแหล่ง:
- อคติของแบบจำลองของคุณ
- ความแปรปรวนของแบบจำลองของคุณ
- ความแปรปรวนที่อธิบายไม่ได้
เราไม่สามารถทำอะไรกับจุดที่ 3 (ยกเว้นการพยายามประเมินความแปรปรวนที่ไม่ได้อธิบายและรวมไว้ในความหนาแน่นที่คาดการณ์และช่วงการทำนายของเรา) นี่ทำให้เรามี 1 และ 2
หากคุณมีรูปแบบ "ถูกต้อง" จริงๆแล้วสมมติว่าการประมาณค่าพารามิเตอร์ OLS จะไม่เอนเอียงและมีความแปรปรวนน้อยที่สุดระหว่างตัวประมาณค่าที่ไม่เอนเอียง (เชิงเส้น) ทั้งหมด (เป็นสีน้ำเงิน) การคาดการณ์จากแบบจำลอง OLS จะเป็นการคาดการณ์ที่ไม่เอนเอียงเชิงเส้น (BLUPs) ที่ดีที่สุด นั่นฟังดูดี
อย่างไรก็ตามปรากฎว่าแม้ว่าเราจะมีการทำนายที่ไม่เอนเอียงและความแปรปรวนน้อยที่สุดในการทำนายที่ไม่เอนเอียงทั้งหมด แต่ความแปรปรวนยังคงค่อนข้างใหญ่ ที่สำคัญกว่านั้นบางครั้งเราสามารถแนะนำอคติ "เล็กน้อย" และบันทึก "ความแปรปรวน" ได้พร้อมกันและด้วยการทำให้การแลกเปลี่ยนถูกต้องเราจะได้รับข้อผิดพลาดการคาดการณ์ที่ต่ำกว่าด้วยแบบจำลองลำเอียง (ความแปรปรวนต่ำกว่า) ความแปรปรวนที่สูงขึ้น) สิ่งนี้เรียกว่าการแลกเปลี่ยนความเอนเอียง (bias-variance tradeoff) และคำถามนี้และคำตอบคือความกระจ่าง: ผู้ประเมินความลำเอียงจะมีความลำเอียงที่ดีเมื่อใด
และการทำให้เป็นปกติเช่นบ่วงบาศถดถอยสันเขาตาข่ายยืดหยุ่นและอื่น ๆ ทำตรงนั้น พวกเขาดึงแบบจำลองไปทางศูนย์ (วิธีการแบบเบย์มีความคล้ายคลึงกัน - พวกเขาดึงแบบจำลองไปสู่นักบวช) ดังนั้นรูปแบบปกติจะมีความลำเอียงเมื่อเทียบกับแบบจำลองที่ไม่ได้ทำให้เป็นมาตรฐาน แต่ก็มีความแปรปรวนต่ำกว่า หากคุณเลือกการทำให้เป็นปกติของคุณผลลัพธ์จะเป็นการคาดการณ์ที่มีข้อผิดพลาดต่ำกว่า
หากคุณค้นหาคำว่า "ความแปรปรวนแบบอคติแบบอคติ"หรือที่คล้ายกันคุณจะได้รับความคิด ยกตัวอย่างเช่นงานนำเสนอนี้มีประโยชน์
แก้ไข: อะมีบาค่อนข้างถูกต้องชี้ให้เห็นว่าฉันกำลัง handwaving ว่าทำไมการทำให้เป็นมาตรฐานอย่างแน่นอนทำให้ความแปรปรวนของแบบจำลองและการทำนายลดลง พิจารณารูปแบบเชือกที่มีขนาดใหญ่ regularization พารามิเตอร์\หากประมาณค่าพารามิเตอร์ lasso ของคุณจะลดลงเหลือศูนย์ ค่าพารามิเตอร์คงที่เป็นศูนย์มีความแปรปรวนเป็นศูนย์ (สิ่งนี้ไม่ถูกต้องทั้งหมดเนื่องจากค่า threshold ของซึ่งเกินกว่าที่พารามิเตอร์ของคุณจะหดเป็นศูนย์ขึ้นอยู่กับข้อมูลและรุ่นของคุณ แต่เมื่อกำหนดรุ่นและข้อมูลแล้วคุณสามารถหาλλ→∞λλเช่นนั้นเป็นแบบจำลองเป็นศูนย์ รักษาปริมาณของคุณให้ตรงเสมอ) อย่างไรก็ตามแน่นอนว่ารุ่นศูนย์จะมีอคติขนาดยักษ์เช่นกัน มันไม่สนใจเกี่ยวกับการสังเกตที่เกิดขึ้นจริงหลังจากทั้งหมด
และเช่นเดียวกันกับค่าที่ไม่สุดขั้วของพารามิเตอร์การทำให้เป็นมาตรฐานของคุณ: ค่าขนาดเล็กจะให้ผลการประมาณการพารามิเตอร์ที่ไม่สม่ำเสมอซึ่งจะมีความลำเอียงน้อยลง (ไม่เอนเอียงหากคุณมีโมเดล "ถูกต้อง") แต่มีค่าสูงกว่า ความแปรปรวน พวกเขาจะ "กระโดดไปรอบ ๆ " ตามการสังเกตที่แท้จริงของคุณ ค่าที่สูงขึ้นของการทำให้เป็นมาตรฐานของคุณจะ "จำกัด " พารามิเตอร์ของคุณโดยประมาณมากขึ้นเรื่อย ๆ นี่คือเหตุผลที่เมธอดมีชื่ออย่าง"lasso"หรือ "elastic net": พวกมัน จำกัด เสรีภาพของพารามิเตอร์ของคุณให้ลอยไปมาและติดตามข้อมูลλ
(ฉันกำลังเขียนบทความเล็ก ๆ น้อย ๆ เกี่ยวกับเรื่องนี้ซึ่งหวังว่าจะสามารถเข้าถึงได้ค่อนข้างฉันจะเพิ่มลิงก์เมื่อมันใช้ได้)