การเลือกตัวแปรเทียบกับการเลือกรุ่น

ฉันเข้าใจว่าการเลือกตัวแปรเป็นส่วนหนึ่งของการเลือกแบบจำลอง แต่การเลือกแบบจำลองนั้นประกอบด้วยอะไรบ้าง? มันเป็นมากกว่าต่อไปนี้:

1) เลือกการกระจายสำหรับรุ่นของคุณ

2) เลือกตัวแปรอธิบาย?

ฉันถามสิ่งนี้เพราะฉันกำลังอ่านบทความBurnham & Anderson: AIC กับ BICที่พวกเขาพูดคุยเกี่ยวกับ AIC และ BIC ในการเลือกรูปแบบ การอ่านบทความนี้ฉันรู้ว่าฉันกำลังคิดถึง 'การเลือกแบบจำลอง' เป็น 'การเลือกตัวแปร' (อ้างอิงความคิดเห็นBIC พยายามค้นหาแบบจำลองที่แท้จริงหรือไม่ )

ข้อความที่ตัดตอนมาจากบทความที่พวกเขาพูดคุยเกี่ยวกับ 12 รุ่นที่มีระดับ "ทั่วไป" ที่เพิ่มขึ้นและโมเดลเหล่านี้แสดง "เอฟเฟกต์การเรียว" (รูปที่ 1) เมื่อ KL-Information ถูกพล็อตกับ 12 โมเดล:

ปรัชญาและรุ่นเป้าหมายที่แตกต่าง ... แม้ว่าเป้าหมายของ BIC จะเป็นรูปแบบทั่วไปมากกว่าแบบเป้าหมายสำหรับ AIC แต่แบบจำลองที่เลือกโดย BIC ส่วนใหญ่มักจะน้อยกว่ารุ่น 7 ยกเว้นว่าnมีขนาดใหญ่มาก มันอาจจะเป็นแบบ 5 หรือ 6 เป็นที่รู้จักกัน (จากเอกสารและการจำลองมากมายในวรรณคดี) ว่าในบริบทของ tapering-effects (รูปที่ 1) AIC ทำงานได้ดีกว่า BIC หากนี่คือบริบทของการวิเคราะห์ข้อมูลจริงควรใช้ AIC

BIC จะเลือกรุ่นที่ซับซ้อนกว่า AIC ได้อย่างไรในการเลือกรุ่นที่ฉันไม่เข้าใจ! "การเลือกรูปแบบ" โดยเฉพาะคืออะไรและเมื่อใดที่ BIC เลือกรูปแบบ "ทั่วไป" มากกว่า AIC โดยเฉพาะ

หากเรากำลังพูดถึงการเลือกตัวแปร BIC จะต้องเลือกรุ่นที่มีตัวแปรต่ำที่สุดเสมอใช่ไหม? ในระยะ BIC จะเพิ่มลงโทษตัวแปรมากกว่าในระยะ AIC แต่นี่ไม่ใช่เหตุผลที่ไม่สมควรหรือไม่เมื่อ " เป้าหมายของ BIC เป็นแบบจำลองทั่วไปมากกว่าแบบจำลองเป้าหมายสำหรับ AIC " $2ln(N)k$ $2k$

แก้ไข :

จากการอภิปรายในความคิดเห็นในมีเหตุผลอะไรที่จะชอบ AIC หรือ BIC มากกว่าคนอื่น ๆ ? เราเห็นการอภิปรายเล็ก ๆ ระหว่าง @Michael Chernick และ @ user13273 ในความคิดเห็นทำให้ฉันเชื่อว่านี่เป็นสิ่งที่ไม่สำคัญ:

ฉันคิดว่าเป็นการเหมาะสมกว่าที่จะเรียกการสนทนานี้เป็นการเลือก "คุณสมบัติ" หรือการเลือก "covariate" สำหรับฉันแล้วการเลือกแบบจำลองนั้นกว้างกว่ามากซึ่งเกี่ยวข้องกับข้อกำหนดของการกระจายข้อผิดพลาดรูปแบบของฟังก์ชันลิงก์และรูปแบบของค่าแปรปรวนร่วม เมื่อเราพูดถึง AIC / BIC เรามักจะอยู่ในสถานการณ์ที่ทุกแง่มุมของการสร้างแบบจำลองได้รับการแก้ไขยกเว้นการเลือก covariates - user13273 13 ส.ค. 2555 เวลา 21:17 น

การตัดสินใจที่เฉพาะเจาะจงเพื่อรวมในแบบจำลองนั้นมักจะไปโดยการเลือกรูปแบบคำและมีจำนวนของหนังสือที่มีการเลือกรูปแบบในชื่อที่มีการตัดสินใจส่วนใหญ่ covariates / พารามิเตอร์รูปแบบที่จะรวมอยู่ในรูปแบบ - Michael Chernick 24 ส.ค. 2555 เวลา 14:44 น

— Erosennin
แหล่งที่มา

คำถามที่ดี! อย่างน้อยส่วนหนึ่งของความละเอียดคือการแยกความแตกต่างระหว่าง "เป้าหมาย" ของ BIC ในคำศัพท์ของบทความนี้ - แบบจำลองที่แท้จริงซึ่งจะเลือกด้วยขนาดตัวอย่างที่มีขนาดใหญ่มาก - และรูปแบบที่เกิดขึ้นเพื่อเลือกตัวอย่างเฉพาะ ขนาด. เมื่อพิจารณาถึงลำดับของโมเดลที่ซ้อนกันโดยไม่มีการเพิ่มขึ้น พารามิเตอร์ในการบอกว่าเป้าหมายของ BIC เป็นรูปแบบที่มี 9 พารามิเตอร์แม้ว่าที่ขนาดของกลุ่มตัวอย่างในระดับปานกลาง BIC หยิบรุ่นที่มี 4 พารามิเตอร์และเอไอซีเป็นหนึ่งเดียวกับ 6

— Scortchi - คืนสิทธิ์ให้กับโมนิกา

@Scortchi: เป็นตัวอย่างที่ดี แต่ไม่ใช่แนวคิดของโมเดลเป้าหมายที่ไม่ซ้ำซ้อนโดยสิ้นเชิงเมื่อเราพูดถึงโมเดลที่ซ้อนกันอยู่ใช่ไหม หากบริบทเป็นชุดของโมเดลที่ซ้อนกัน (เรากำลังพูดถึงการเลือกตัวแปร): BIC อาจมีรูปแบบเป้าหมายที่ซับซ้อนมากขึ้นแต่จะไม่เลือกรูปแบบที่ซับซ้อนกว่า AIC ในบริบทอื่น ๆ (เรากำลังพูดถึงการเลือกรูปแบบ) (ที่มีขนาดตัวอย่างขนาดใหญ่) กระดาษอ้างว่า BIC จะเลือกรูปแบบเป้าหมายที่ซับซ้อน ("ทั่วไป") มากกว่า AIC สิ่งนี้เกิดขึ้นโดยเฉพาะยังไม่ชัดเจนสำหรับฉัน

— Erosennin

@Erosennin คุณเคยค้นหาคำตอบสำหรับคำถามทั่วไปของคุณหรือไม่?

— zipzapboing

บางครั้งผู้สร้างแบบจำลองแยกการเลือกตัวแปรเป็นขั้นตอนที่ชัดเจนในการพัฒนาแบบจำลอง ตัวอย่างเช่นพวกเขาจะทำการวิเคราะห์เชิงสำรวจค้นคว้างานวิจัยเชิงวิชาการและแนวปฏิบัติทางอุตสาหกรรมจากนั้นจะมีรายการตัวแปรที่เหมาะสม พวกเขาจะเรียกการเลือกตัวแปรขั้นตอนนี้

y_{i} = \sum_{j_{m}} X_{i j_{m}} β_{j_{m}} + ε_{i},

$y_i=\sum_{j_m} X_{ij_m}\beta_{j_m}+\varepsilon_i,$

j_{m}

$j_m$

j

$j$

m

$m$

m

$m$

สิ่งนี้คล้ายกับวิธีที่คนเรียนรู้ด้วยเครื่องพูดคุยเกี่ยวกับวิศวกรรมฟีเจอร์เมื่อพวกเขาคิดตัวแปร คุณเสียบคุณสมบัติเข้ากับ LASSO หรือกรอบงานที่คล้ายกันซึ่งคุณสร้างแบบจำลองโดยใช้คุณสมบัติเหล่านี้ (ตัวแปร) ในบริบทนี้คุณควรแยกการเลือกตัวแปรออกเป็นขั้นตอนที่แตกต่างกันเนื่องจากคุณปล่อยให้อัลกอริทึมเลือกสัมประสิทธิ์ที่เหมาะสมสำหรับตัวแปรและไม่กำจัดตัวแปรใด ๆ การตัดสินของคุณ (ในเรื่องที่ตัวแปรเข้าสู่แบบจำลอง) จะถูกแยกออกในขั้นตอนการเลือกตัวแปรจากนั้นส่วนที่เหลือจะขึ้นอยู่กับอัลกอริทึมที่เหมาะสม

$m$

— Aksakal
แหล่งที่มา