วิธีการลงโทษสำหรับข้อมูลเด็ดขาด: การรวมระดับในปัจจัย


10

โมเดลที่ถูกปรับแต่งสามารถใช้เพื่อประเมินโมเดลที่มีจำนวนพารามิเตอร์เท่ากับหรือมากกว่าขนาดตัวอย่าง สถานการณ์นี้อาจเกิดขึ้นในตัวแบบบันทึกการเชิงเส้นของตารางกระจัดกระจายขนาดใหญ่ของข้อมูลเด็ดขาดหรือการนับ ในการตั้งค่าเหล่านี้มักเป็นที่ต้องการหรือเป็นประโยชน์ในการยุบตารางด้วยการรวมระดับของปัจจัยที่ระดับเหล่านั้นไม่สามารถแยกแยะในแง่ของวิธีที่พวกเขาโต้ตอบกับปัจจัยอื่น ๆ สองคำถาม:

  1. มีวิธีใช้แบบจำลองที่มีการลงโทษเช่น LASSO หรือ elastic net เพื่อทดสอบการยุบตัวของระดับภายในแต่ละปัจจัยหรือไม่?
  2. หากคำตอบสำหรับคำถามแรกคือใช่สามารถและควรตั้งค่านี้ในลักษณะที่การล่มสลายของระดับและการประมาณค่าสัมประสิทธิ์แบบเกิดขึ้นในขั้นตอนเดียว?

1
บทความนี้doi.org/10.1177/1471082X16642560ให้ภาพรวมที่ดีเกี่ยวกับสิ่งที่ได้ทำในพื้นที่นี้ในช่วงทศวรรษที่ผ่านมา
Jorne Biccler

1
หมายเหตุ: บทลงโทษที่ฉันพูดถึงด้านล่างคือสมการ 3.4 ในลิงก์ของ @JorneBiccler (มันน่าสนใจที่จะเห็นว่าคำถามนี้ได้รับการพิจารณามาก่อน!)
user795305


เราจะเรียกสิ่งนี้ว่าซ้ำซ้อนกับคำถามที่เกิดขึ้นก่อนหน้าได้อย่างไร
Michael R. Chernick

คำตอบ:


4

มันเป็นไปได้. เราสามารถใช้บ่วงบาศที่หลากหลายเพื่อทำสิ่งนี้ให้สำเร็จ

เราสามารถใช้เครื่องมือประมาณ

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

โปรดทราบว่าเป็นฟังก์ชั่นการสูญเสียสำหรับบันทึกเชิงเส้น รุ่น1ni=1n(yiβTxieβTxi)

สิ่งนี้ส่งเสริมให้สัมประสิทธิ์ภายในกลุ่มเท่ากัน ค่าสัมประสิทธิ์ความเท่าเทียมกันนี้เทียบเท่ากับการยุบระดับและของปัจจัยเข้าด้วยกัน ในกรณีที่เมื่อมันเทียบเท่ากับการยุบระดับด้วยระดับการอ้างอิง พารามิเตอร์การปรับแต่งสามารถถือว่าเป็นค่าคงที่ แต่ถ้ามีเพียงไม่กี่ปัจจัยมันจะเป็นการดีกว่าถ้าจะแยกพวกมันjthkthβ^j=0jthλg

ตัวประมาณเป็นตัวย่อของฟังก์ชันนูนเพื่อให้สามารถคำนวณได้อย่างมีประสิทธิภาพผ่านตัวแก้ปัญหาโดยพลการ เป็นไปได้ว่าหากปัจจัยมีหลายระดับหลายระดับความแตกต่างของจำนวนคู่เหล่านี้จะหลุดมือ --- ในกรณีนี้จำเป็นต้องรู้โครงสร้างเพิ่มเติมเกี่ยวกับรูปแบบการล่มสลายที่เป็นไปได้

โปรดทราบว่าทั้งหมดนี้ทำได้ในขั้นตอนเดียว! นี่เป็นส่วนหนึ่งของสิ่งที่ทำให้ตัวประมาณค่าแบบบ่วงบาศนั้นเจ๋งมาก!


อีกวิธีที่น่าสนใจคือการใช้ตัวประมาณค่า OSCAR ซึ่งเป็นเหมือนข้างบนยกเว้นโทษถูกแทนที่ด้วย\[11][βiβj]1[βiβj]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.