ทำไมการหดตัวจึงใช้งานได้


55

เพื่อที่จะแก้ปัญหาของการเลือกแบบจำลองจำนวนของวิธีการ (LASSO, การถดถอยของสันเขา ฯลฯ ) จะลดค่าสัมประสิทธิ์ของตัวแปรทำนายไปทางศูนย์ ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้จึงปรับปรุงความสามารถในการทำนาย หากผลที่แท้จริงของตัวแปรมีขนาดใหญ่มากทำไมไม่ลดขนาดพารามิเตอร์ส่งผลให้การคาดการณ์แย่ลง?

คำตอบ:


48

มีข้อผิดพลาดในการทำนายที่แตกต่างกันสามแหล่ง:

  1. อคติของแบบจำลองของคุณ
  2. ความแปรปรวนของแบบจำลองของคุณ
  3. ความแปรปรวนที่อธิบายไม่ได้

เราไม่สามารถทำอะไรกับจุดที่ 3 (ยกเว้นการพยายามประเมินความแปรปรวนที่ไม่ได้อธิบายและรวมไว้ในความหนาแน่นที่คาดการณ์และช่วงการทำนายของเรา) นี่ทำให้เรามี 1 และ 2

หากคุณมีรูปแบบ "ถูกต้อง" จริงๆแล้วสมมติว่าการประมาณค่าพารามิเตอร์ OLS จะไม่เอนเอียงและมีความแปรปรวนน้อยที่สุดระหว่างตัวประมาณค่าที่ไม่เอนเอียง (เชิงเส้น) ทั้งหมด (เป็นสีน้ำเงิน) การคาดการณ์จากแบบจำลอง OLS จะเป็นการคาดการณ์ที่ไม่เอนเอียงเชิงเส้น (BLUPs) ที่ดีที่สุด นั่นฟังดูดี

อย่างไรก็ตามปรากฎว่าแม้ว่าเราจะมีการทำนายที่ไม่เอนเอียงและความแปรปรวนน้อยที่สุดในการทำนายที่ไม่เอนเอียงทั้งหมด แต่ความแปรปรวนยังคงค่อนข้างใหญ่ ที่สำคัญกว่านั้นบางครั้งเราสามารถแนะนำอคติ "เล็กน้อย" และบันทึก "ความแปรปรวน" ได้พร้อมกันและด้วยการทำให้การแลกเปลี่ยนถูกต้องเราจะได้รับข้อผิดพลาดการคาดการณ์ที่ต่ำกว่าด้วยแบบจำลองลำเอียง (ความแปรปรวนต่ำกว่า) ความแปรปรวนที่สูงขึ้น) สิ่งนี้เรียกว่าการแลกเปลี่ยนความเอนเอียง (bias-variance tradeoff) และคำถามนี้และคำตอบคือความกระจ่าง: ผู้ประเมินความลำเอียงจะมีความลำเอียงที่ดีเมื่อใด

และการทำให้เป็นปกติเช่นบ่วงบาศถดถอยสันเขาตาข่ายยืดหยุ่นและอื่น ๆ ทำตรงนั้น พวกเขาดึงแบบจำลองไปทางศูนย์ (วิธีการแบบเบย์มีความคล้ายคลึงกัน - พวกเขาดึงแบบจำลองไปสู่นักบวช) ดังนั้นรูปแบบปกติจะมีความลำเอียงเมื่อเทียบกับแบบจำลองที่ไม่ได้ทำให้เป็นมาตรฐาน แต่ก็มีความแปรปรวนต่ำกว่า หากคุณเลือกการทำให้เป็นปกติของคุณผลลัพธ์จะเป็นการคาดการณ์ที่มีข้อผิดพลาดต่ำกว่า

หากคุณค้นหาคำว่า "ความแปรปรวนแบบอคติแบบอคติ"หรือที่คล้ายกันคุณจะได้รับความคิด ยกตัวอย่างเช่นงานนำเสนอนี้มีประโยชน์

แก้ไข: อะมีบาค่อนข้างถูกต้องชี้ให้เห็นว่าฉันกำลัง handwaving ว่าทำไมการทำให้เป็นมาตรฐานอย่างแน่นอนทำให้ความแปรปรวนของแบบจำลองและการทำนายลดลง พิจารณารูปแบบเชือกที่มีขนาดใหญ่ regularization พารามิเตอร์\หากประมาณค่าพารามิเตอร์ lasso ของคุณจะลดลงเหลือศูนย์ ค่าพารามิเตอร์คงที่เป็นศูนย์มีความแปรปรวนเป็นศูนย์ (สิ่งนี้ไม่ถูกต้องทั้งหมดเนื่องจากค่า threshold ของซึ่งเกินกว่าที่พารามิเตอร์ของคุณจะหดเป็นศูนย์ขึ้นอยู่กับข้อมูลและรุ่นของคุณ แต่เมื่อกำหนดรุ่นและข้อมูลแล้วคุณสามารถหาλλλλเช่นนั้นเป็นแบบจำลองเป็นศูนย์ รักษาปริมาณของคุณให้ตรงเสมอ) อย่างไรก็ตามแน่นอนว่ารุ่นศูนย์จะมีอคติขนาดยักษ์เช่นกัน มันไม่สนใจเกี่ยวกับการสังเกตที่เกิดขึ้นจริงหลังจากทั้งหมด

และเช่นเดียวกันกับค่าที่ไม่สุดขั้วของพารามิเตอร์การทำให้เป็นมาตรฐานของคุณ: ค่าขนาดเล็กจะให้ผลการประมาณการพารามิเตอร์ที่ไม่สม่ำเสมอซึ่งจะมีความลำเอียงน้อยลง (ไม่เอนเอียงหากคุณมีโมเดล "ถูกต้อง") แต่มีค่าสูงกว่า ความแปรปรวน พวกเขาจะ "กระโดดไปรอบ ๆ " ตามการสังเกตที่แท้จริงของคุณ ค่าที่สูงขึ้นของการทำให้เป็นมาตรฐานของคุณจะ "จำกัด " พารามิเตอร์ของคุณโดยประมาณมากขึ้นเรื่อย ๆ นี่คือเหตุผลที่เมธอดมีชื่ออย่าง"lasso"หรือ "elastic net": พวกมัน จำกัด เสรีภาพของพารามิเตอร์ของคุณให้ลอยไปมาและติดตามข้อมูลλ

(ฉันกำลังเขียนบทความเล็ก ๆ น้อย ๆ เกี่ยวกับเรื่องนี้ซึ่งหวังว่าจะสามารถเข้าถึงได้ค่อนข้างฉันจะเพิ่มลิงก์เมื่อมันใช้ได้)


4
ดูเหมือนว่าชิ้นส่วนที่สำคัญของปริศนาคือ: ทำไมวิธีการหดตัวจึงลดความแปรปรวน? (การที่พวกเขาแนะนำอคติบางอย่างนั้นชัดเจนมากหรือน้อย) คุณเพียง แต่ระบุว่าพวกเขาทำ คุณสามารถให้สัญชาตญาณเพื่อสิ่งนั้นได้ไหม
อะมีบาพูดว่า Reinstate Monica

2
@Stephan Kolassa ดังนั้นการเพิ่มการลงบัญชีการลงโทษสำหรับขนาดของสัมประสิทธิ์เพิ่มความลำเอียงนิดหน่อย แต่ลดความแปรปรวนเนื่องจากมันเป็นการลงโทษสัมประสิทธิ์ขนาดใหญ่ซึ่งโดยทั่วไปจะมีความแปรปรวนมากกว่าสัมประสิทธิ์ขนาดเล็ก ถูกต้องไหม จากนั้นในที่สุดเราไม่ได้กังวลเกี่ยวกับการได้ค่า 'ถูกต้อง' สำหรับค่าสัมประสิทธิ์ใด ๆ เราสนใจเพียงความสามารถในการทำนายโดยรวมของตัวแบบ?
aspiringstatistician

2
@aspiringstatistician: ประโยคที่สองของคุณอยู่บนเครื่องหมาย (เรียกคืนจอร์จบ็อกซ์เกี่ยวกับโมเดลที่ "ผิด แต่มีประโยชน์") ฉันไม่ต้องกังวลทั้งหมดเกี่ยวกับว่าการประมาณค่าพารามิเตอร์ขนาดใหญ่นั้นหดตัวมากกว่าขนาดเล็กหรือไม่ ก่อนนี้จะขึ้นอยู่กับมาตรฐาน ประการที่สองหากค่าพารามิเตอร์ขนาดใหญ่ของคุณมีการประมาณที่ดี (เช่นมีข้อผิดพลาดต่ำ) ดังนั้นพวกเขาจะไม่หดตัวมากนัก การทำให้เป็นมาตรฐาน "ชอบ" เพื่อลดขนาดพารามิเตอร์ที่กำหนดไว้ไม่ดีกล่าวคือมีความแปรปรวนสูง
S. Kolassa - Reinstate Monica

3
+1 ขอให้โชคดีกับกระดาษ! @aspiringstatistician: การสังเกตที่ดีมากเกี่ยวกับการหดตัวไม่เกี่ยวข้องกับการสร้างแบบจำลองที่ถูกต้อง สิ่งนี้ถูกต้อง (และคุ้มค่ากับการไตร่ตรอง): โมเดลที่ระบุอย่างถูกต้องสามารถมีความสามารถในการทำนายที่แย่กว่าแบบปกติและ "น้อยจริง" (ดูภาคผนวกในหน้า 307 ของบทความนี้ )
อะมีบาพูดว่า Reinstate Monica

7
+1 แค่อยากจะเพิ่มว่าในขณะที่คำถามเกี่ยวกับสัญชาตญาณที่อยู่เบื้องหลังแบบจำลองทั่วไปมันรู้สึกไม่สมบูรณ์เล็กน้อยที่ไม่พูดถึง Bayesian ที่มาของแบบจำลองเหล่านี้ ตัวอย่างเช่นเมื่อเปรียบเทียบการถดถอยของสันกับ MLE แบบง่าย ๆ ในแอปพลิเคชันส่วนใหญ่มันเป็นเรื่องธรรมดาสำหรับผมที่จะนึกถึงผลที่ได้จากการแจกแจงแบบปกติซึ่งต่างจากการแจกแจงแบบสม่ำเสมอ ดังนั้นการเห็นเทคนิคเหล่านี้ทั้งสองเป็นกรณีพิเศษของการประมาณค่า MAP ทำให้ชัดเจนว่าทำไมเราถึงเลือกการถดถอยแบบสัน
jlimahaverford

10

เพียงเพื่อเพิ่มสิ่งที่ @ คำตอบที่ดี Kolassa ของคำถามทั้งหมดของประมาณการการหดตัวที่ถูกผูกไว้ทันกับความขัดแย้งของสไตน์ สำหรับกระบวนการหลายตัวแปรที่มีเวกเตอร์ของค่าเฉลี่ยตัวอย่างไม่สามารถยอมรับได้ กล่าวอีกนัยหนึ่งสำหรับค่าพารามิเตอร์บางตัวมีตัวประมาณค่าที่แตกต่างกันซึ่งมีความเสี่ยงต่ำกว่าที่คาดไว้ สไตน์เสนอตัวประมาณค่าการหดตัวเป็นตัวอย่าง ดังนั้นเราจึงจัดการกับคำสาปของมิติเนื่องจากการหดตัวไม่ได้ช่วยคุณเมื่อคุณมีตัวแปรอิสระเพียง 1 หรือ 2 ตัวp3

อ่านคำตอบนี้เพิ่มเติม เห็นได้ชัดว่าความขัดแย้งของสไตน์เกี่ยวข้องกับทฤษฎีบทที่รู้จักกันดีว่ากระบวนการเคลื่อนไหวของ Browian ใน 3 มิติหรือมากกว่านั้นไม่เกิดขึ้นอีก

ความขัดแย้งของสไตน์ถือโดยไม่คำนึงถึงสิ่งที่คุณหดหายไปถึงแม้ว่าในทางปฏิบัติมันจะดีกว่าถ้าคุณหดตัวลงไปยังค่าพารามิเตอร์ที่แท้จริง นี่คือสิ่งที่เบย์ทำ พวกเขาคิดว่าพวกเขารู้ว่าพารามิเตอร์ที่แท้จริงอยู่ที่ไหน จากนั้นพวกเขาก็อ้างว่าสไตน์ตรวจสอบการมีอยู่ของพวกเขา

มันเรียกว่าเส้นขนานอย่างแม่นยำเพราะมันท้าทายสัญชาตญาณของเรา อย่างไรก็ตามหากคุณนึกถึงการเคลื่อนไหวแบบบราวเนียนวิธีเดียวที่จะทำให้การเคลื่อนไหวแบบ 3 มิติของบราวเนียนเพื่อกลับไปยังจุดกำเนิดนั้นคือการกำหนดบทลงโทษขั้นต่ำ ตัวประมาณค่าการหดตัวยังกำหนดประเภทของตัวหน่วงการสั่นสะเทือน (ลดความแปรปรวน) ซึ่งเป็นสาเหตุ


คุณมีการอ้างอิงสำหรับการเชื่อมต่อระหว่างกระบวนการของสไตน์และกระบวนการบราวเนียนหรือไม่?
kjetil b halvorsen

1
ตามลิงค์ของฉันภายใต้ "อ่านคำตอบนี้เพื่อเพิ่มเติม" มีลิงค์ในการตอบกลับไปยังกระดาษที่ทำให้การเชื่อมต่อเป็น
Placidia

ตัวประมาณเบย์สามารถยอมรับได้โดยทฤษฎีบทคลาสที่สมบูรณ์: มันไม่มีส่วนเกี่ยวข้องกับตัวประมาณค่า JS โดยตรง อย่างไรก็ตามผลลัพธ์ที่ JS ครอบงำค่าเฉลี่ยตัวอย่างทำให้คนสนใจศึกษาค่าประมาณเบย์มากขึ้น (ฉันคัดค้านคำกล่าวอ้างที่ว่าชาวเบย์ "อ้างว่าสไตน์ตรวจสอบการมีอยู่ของพวกเขา")
user795305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.