AIC, BIC และ GCV: อะไรที่ดีที่สุดสำหรับการตัดสินใจในวิธีการลงโทษที่ถูกลงโทษ?

ความเข้าใจทั่วไปของฉันคือAICเกี่ยวข้องกับการแลกเปลี่ยนระหว่างความดีงามของแบบและความซับซ้อนของแบบจำลอง

$AIC =2k -2ln(L)$

$k$ = จำนวนพารามิเตอร์ในโมเดล

$L$ = ความเป็นไปได้

เกณฑ์ข้อมูล Bayesian BICนั้นเกี่ยวข้องกับ AIC อย่างมาก AIC จะลงโทษจำนวนพารามิเตอร์ที่น้อยกว่า BIC ฉันเห็นว่ามีการใช้สองสิ่งนี้ทุกที่ในอดีต แต่การตรวจสอบข้ามโดยทั่วไป (GCV) นั้นใหม่สำหรับฉัน GCV เกี่ยวข้องกับ BIC หรือ AIC ได้อย่างไร วิธีการเหล่านี้ใช้ร่วมกันหรือแยกออกจากกันในการเลือกระยะเวลาการลงโทษในการถดถอยแบบแผงเหมือนสัน?

แก้ไข: นี่เป็นตัวอย่างการคิดและอภิปราย:

    require(lasso2)
    data(Prostate)
    require(rms)

    ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
           method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
    p <- pentrace(ridgefits, seq(0,1,by=.01))
    effective.df(ridgefits,p)
    out <- p$results.all
    par(mfrow=c(3,2))
    plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df"  )
    plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC",  xlab = "df" )
    plot(out$penalty, out$df,  type = "l", col = "red", 
     xlab = expression(paste(lambda)), ylab = "df" )
    plot(out$penalty, out$aic, col = "blue", type = "l",  
      ylab = "AIC", xlab = expression(paste(lambda))  )
    plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC", 
      xlab= expression(paste(lambda))

require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l", 
      ylab = "CVM",   xlab= expression(paste(lambda))

ป้อนคำอธิบายรูปภาพที่นี่

— รามชาร์
แหล่งที่มา

คำตอบ:

ฉันคิดว่า BIC เป็นที่ต้องการเมื่อมีตัวแบบ "จริง" มิติต่ำซึ่งฉันคิดว่าไม่เป็นเช่นนั้นในงานเชิงประจักษ์ AIC สอดคล้องกับการคาดการณ์ว่ายิ่งเรามีข้อมูลที่ซับซ้อนมากเท่าไหร่ AIC โดยใช้องศาอิสระอย่างมีประสิทธิภาพในประสบการณ์ของฉันเป็นวิธีที่ดีมากในการเลือกพารามิเตอร์การลงโทษเพราะมันมีแนวโน้มที่จะเพิ่มประสิทธิภาพของแบบจำลองในตัวอย่างที่ใหม่และเป็นอิสระ $\lambda$

— Frank Harrell
แหล่งที่มา

การตีความภาคปฏิบัติที่ยอดเยี่ยมและยังสมเหตุสมผลในบริบทของ Bayesian ... "เชิงทฤษฎี" - อัตราส่วนความน่าจะเป็นเทียบกับข้อผิดพลาดในการทำนาย "atheoretic"

— shadowtalker

มันอาจช่วยอธิบายรายละเอียดเกี่ยวกับ "องศาอิสระที่มีประสิทธิภาพ" สำหรับโซลูชันปกติที่สามารถคำนวณและใช้ใน AIC ได้

— Brian Borchers

ดูรหัสในฟังก์ชั่นrmsแพคเกจR effective.dfและกลยุทธ์การสร้างแบบจำลองการถดถอยหนังสือของฉัน แนวคิดหลักจาก Robert Gray คือคุณพิจารณาเมทริกซ์ความแปรปรวนร่วมโดยไม่มีการลงโทษกับเมทริกซ์ความแปรปรวนร่วมที่มีการลงโทษ ผลรวมของเส้นทแยงมุมของอัตราส่วนสองชนิดนี้จะให้ df ที่มีประสิทธิภาพ

— Frank Harrell

@ FrankHarrell: ดังนั้นถ้าฉันเข้าใจคุณอย่างถูกต้อง - มันโอเคที่จะคำนวณพวงของโมเดลในglmnet(แต่ละอันมีพารามิเตอร์แลมบ์ดาที่ต่างกัน) และคำนวณ AIC สำหรับแต่ละรุ่นแล้วเลือกแลมบ์ดาที่สอดคล้องกับรุ่นที่มี AIC ต่ำที่สุด นี่เป็นอีกวิธีในการเลือกพารามิเตอร์ lambda นอกเหนือจากการใช้การตรวจสอบความถูกต้องข้าม ฉันถูกไหม?

— Corel

ฉันกำลังเขียนในบริบทของrmsแพ็กเกจที่มีฟังก์ชั่นการปรับสองสามอย่างเมื่อใช้กับการeffective.dfคำนวณจำนวนพารามิเตอร์ที่มีประสิทธิภาพเพื่อให้คุณได้รับ AIC ที่มีประสิทธิภาพ สิ่งนี้จะประมาณสิ่งที่คุณได้รับจากการตรวจสอบข้ามกับ CV'ing ดูสิ่งนี้

— Frank Harrell

ความคิดของฉันเกี่ยวกับสิ่งนี้ไม่ได้ถูกรวบรวมมากนัก แต่นี่คือจุดรวบรวมที่ฉันรู้ว่าอาจช่วยได้

การตีความแบบเบย์ของ AIC ก็คือมันเป็นการประมาณค่าอคติที่ถูกต้องกับความหนาแน่นของการคาดคะเนแบบบันทึกจุดที่คาดการณ์เช่นความผิดพลาดในการทำนายนอกตัวอย่าง การตีความนี้จัดทำขึ้นอย่างดีในGelman, Hwang และ Vehtari (2013)และยังกล่าวถึงบล็อกของ Gelmanอีกด้วย การตรวจสอบความถูกต้องไขว้เป็นการประมาณที่แตกต่างกันในสิ่งเดียวกัน

ในขณะเดียวกัน BIC เป็นการประมาณค่ากับ " Bayes factor " ก่อนหน้านี้ (อธิบายอย่างชัดเจนในRaftery, 1999 ) นี่คืออะนาล็อกของ Bayesian ที่มีอัตราส่วนความน่าจะเป็น

สิ่งที่น่าสนใจเกี่ยวกับ AIC และ BIC ก็คือการถดถอยแบบลงโทษนั้นก็มีการตีความแบบเบย์เช่น LASSO คือการประมาณค่า MAP ของการถดถอยแบบเบย์พร้อมกับ Laplace Priors อิสระจากสัมประสิทธิ์ บิตข้อมูลเพิ่มเติมในคำถามก่อนหน้านี้และมากขึ้นในคยอง, กิลล์กอชและ Casella (2010)

สิ่งนี้แนะนำให้ฉันรู้ว่าคุณอาจได้รับไมล์สะสมหรืออย่างน้อยก็มีการออกแบบการวิจัยที่สอดคล้องกันมากขึ้นโดยการคิดและทำแบบจำลองในแง่ของเบย์ ฉันรู้ว่านี่เป็นเรื่องผิดปกติเล็กน้อยในแอปพลิเคชั่นจำนวนมากเช่นการเรียนรู้ด้วยเครื่องมิติสูงและยังถูกลบออกจากการตีความเชิงเรขาคณิตและการสูญเสียหน้าที่ของการทำให้เป็นระเบียบมากขึ้น อย่างน้อยที่สุดฉันก็ต้องพึ่งพาการตีความแบบเบย์อย่างมากในการตัดสินใจระหว่าง AIC และ BIC และเพื่ออธิบายความแตกต่างของฆราวาสผู้ร่วมงาน / ผู้บังคับบัญชาที่ไม่เกี่ยวข้องกับสถิติ ฯลฯ

$\lambda$

การเลือกพารามิเตอร์การปรับแต่งโดยการตรวจสอบข้ามเป็นเพียงการใช้งานเฉพาะของ Bayes แบบลำดับชั้น

— shadowtalker
แหล่งที่มา