AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - ฉันสามารถใช้มันแทนกันได้หรือไม่?


47

บนหน้า 34 ของPRNN Brian Ripley ให้ความเห็นว่า "The AIC ได้รับการตั้งชื่อโดย Akaike (1974) ว่าเป็น 'An Information Criterion' ถึงแม้ว่าดูเหมือนว่าโดยทั่วไปเชื่อว่า A ย่อมาจาก Akaike" แน่นอนเมื่อแนะนำสถิติ AIC, Akaike (1974, p.719) อธิบายว่า

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

พิจารณาใบเสนอราคานี้เป็นคำทำนายที่ทำในปี 1974 เป็นที่น่าสนใจที่จะทราบว่าในเวลาเพียงสี่ปีสองประเภทของสถิติ BIC (Bayesian IC) ถูกเสนอโดย Akaike (1977, 1978) และ Schwarz (1978) มันใช้เวลา Spiegelhalter และคณะ (2002) อีกต่อไปที่จะเกิดขึ้นกับ DIC (Deviance IC) ในขณะที่การปรากฏตัวของเกณฑ์ CIC ไม่ได้ถูกทำนายโดย Akaike (1974) มันจะไร้เดียงสาที่จะเชื่อว่ามันไม่เคยไตร่ตรอง มันถูกเสนอโดย Carlos C. Rodriguez ในปี 2005 (โปรดทราบว่า R. Tibshirani และ K. Knight's CIC (เกณฑ์ความแปรปรวนเงินเฟ้อแบบโคเรีย) เป็นสิ่งที่ต่างออกไป)

ฉันรู้ว่า EIC (Empirical IC) ถูกเสนอโดยคนของมหาวิทยาลัย Monash ในปี 2003 ฉันเพิ่งค้นพบเกณฑ์ข้อมูลที่มุ่งเน้น (FIC) หนังสือบางเล่มอ้างถึง Hannan และ Quinn IC ว่า HIC ให้ดูเช่นนี้ ) ฉันรู้ว่าควรมี GIC (Generalized IC) และฉันเพิ่งค้นพบหลักเกณฑ์การลงทุนข้อมูล (IIC) มี NIC, TIC และอีกมากมาย

ฉันคิดว่าฉันสามารถครอบคลุมตัวอักษรที่เหลือได้ดังนั้นฉันจึงไม่ถามว่าลำดับ AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... หยุดหรือตัวอักษรที่มี ไม่ถูกใช้งานหรือถูกใช้อย่างน้อยสองครั้ง (เช่น E ใน EIC สามารถยืนสำหรับ Extended หรือ Empirical) คำถามของฉันง่ายขึ้นและฉันหวังว่าจะมีประโยชน์มากกว่า ฉันสามารถใช้สถิติเหล่านั้นสลับกันได้โดยไม่สนใจสมมติฐานที่พวกเขาได้รับมาภายใต้สถานการณ์เฉพาะที่พวกเขาตั้งใจจะนำมาใช้และอื่น ๆ ?

คำถามนี้ได้รับแรงบันดาลใจบางส่วนจาก Burnham & Anderson (2001) ที่เขียนว่า:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

บทที่ 7 ของเอกสารกำกับของ Hyndman et al. เรื่องการปรับให้เรียบแบบเอกซ์โปเนนเชียลดูเหมือนจะทำตามคำแนะนำของ BA เมื่อดูว่าไอซีทางเลือกห้าตัว (AIC, BIC, AICc, HQIC, LEIC) ทำงานได้ดีเพียงใดในการเลือกแบบจำลอง โดยข้อผิดพลาดที่เสนอใหม่ที่เรียกว่า MASE) เพื่อสรุปว่า AIC เป็นทางเลือกที่ดีกว่าบ่อยกว่า (HQIC ถูกรายงานว่าเป็นตัวเลือกรุ่นที่ดีที่สุดเพียงครั้งเดียว)

ฉันไม่แน่ใจว่าอะไรคือวัตถุประสงค์ที่เป็นประโยชน์ของแบบฝึกหัดการวิจัยที่ปฏิบัติต่อ ICC ทั้งหมดโดยปริยายราวกับว่าพวกมันได้รับการตอบคำถามเดียวและคำถามเดียวกันภายใต้สมมติฐานที่เท่าเทียมกัน โดยเฉพาะอย่างยิ่งฉันไม่แน่ใจว่ามันจะมีประโยชน์ในการตรวจสอบประสิทธิภาพการทำนายของเกณฑ์ที่สอดคล้องกันสำหรับการกำหนดลำดับของการตอบโต้อัตโนมัติ (ที่ Hannan และ Quinn มาสำหรับลำดับนิ่งนิ่ง) โดยใช้มันในบริบทของการไม่ชี้แจงคงที่ แบบจำลองที่ราบเรียบอธิบายและวิเคราะห์ในเอกสารโดย Hyndman และคณะ ฉันทำอะไรบางอย่างหายไปหรือเปล่า

อ้างอิง:

Akaike, H. (1974), รูปลักษณ์ใหม่ในการระบุรูปแบบสถิติ, ธุรกรรม IEEE บนการควบคุมอัตโนมัติ 19 (6), 716-723

Akaike, H. (1977), เกี่ยวกับหลักการการเพิ่มประสิทธิภาพเอนโทรปีใน PR Krishnaiah, ed., การประยุกต์ใช้สถิติ , Vol. 27, Amsterdam: North Holland, pp. 27-41

Akaike, H. (1978), การวิเคราะห์แบบเบส์ของขั้นตอน AIC ขั้นต่ำ, พงศาวดารของสถาบันคณิตศาสตร์สถิติ 30 (1), 9-14

Burnham, KP & Anderson, DR (2001) ข้อมูล Kullback – Leibler เป็นพื้นฐานสำหรับการอนุมานที่แข็งแกร่งในการศึกษาทางนิเวศวิทยาการวิจัยสัตว์ป่า 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK และสไนเดอร์, RD การพยากรณ์ด้วยการปรับให้เรียบแบบเอ็กซ์โปเนนเชียล: แนวทางพื้นที่ของรัฐ นิวยอร์ก: Springer, 2008

ริปลีย์ BD จดจำรูปแบบและโครงข่ายประสาทเทียม เคมบริดจ์: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 1996

Schwarz, G. (1978), การประมาณขนาดของโมเดล, บันทึกสถิติ 6 (2), 461-464

Spiegelhalter, DJ, Best, NG, Carlin, BP และ van der Linde, A. (2002), การวัดแบบจำลองความซับซ้อนของ Bayesian และ t (พร้อมการอภิปราย), วารสารสมาคมสถิติแห่งราชอาณาจักร ชุด B (ระเบียบวิธีทางสถิติ) 64 (4), 583-639


9
ในการสนทนากับ Findley และ Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike เปิดเผยว่า AIC ถูกใช้โดยผู้ช่วยในโปรแกรม FORTRAN ของเธอ ชื่อตัวแปรเช่น IC โดยปริยายเป็นจำนวนเต็ม คำนำหน้าเช่น A เพียงพอที่จะแนะนำคอมไพเลอร์ว่าปริมาณเป็นของจริง แม้ว่าจะไม่ได้ตั้งใจ "Akaike" เขาก็ตระหนักว่ามันหมายถึงเพียงแค่ "a" (โดยบังเอิญในขณะที่การอ้างอิงนี้ในขณะที่มันเป็นยาแก้พิษที่ไม่ถูกต้องเรื่องหนึ่งมันชุลมุนสะกดผิดของ Mallows 'เป็น Mallow ของ.)
นิคค็อกซ์

คำถามนี้ทำให้คิดเกี่ยวกับ "การออกแบบการทดลองตามตัวอักษร": doe.soton.ac.uk/elearning/section3.6.jsp
kjetil b halvorsen

คำตอบ:


36

ความเข้าใจของฉันคือ AIC, DIC และ WAIC ต่างก็ประเมินสิ่งเดียวกันนั่นคือค่าเบี่ยงเบนตัวอย่างที่คาดไว้เกี่ยวข้องกับแบบจำลอง นี่เป็นสิ่งเดียวกันกับที่การประเมินการตรวจสอบข้าม ใน Gelman et al. (2013) พวกเขาพูดอย่างนี้อย่างชัดเจน:

วิธีธรรมชาติในการประมาณข้อผิดพลาดการทำนายนอกตัวอย่างคือการตรวจสอบความถูกต้องไขว้ (ดู Vehtari และ Lampinen, 2002, สำหรับมุมมองแบบเบย์) แต่นักวิจัยได้หาวิธีการทางเลือกอื่น ๆ เสมอ พบปัญหากับข้อมูลที่กระจัดกระจาย สำหรับเหตุผลเชิงปฏิบัติเพียงอย่างเดียวยังมีสถานที่สำหรับการแก้ไขอคติอย่างง่ายเช่น AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin และ van der Linde, 2002, van der Linde, 2005) และล่าสุด WAIC (Watanabe, 2010) และสิ่งเหล่านี้สามารถดูได้โดยประมาณกับการตรวจสอบความถูกต้องข้ามรุ่นต่าง ๆ (Stone, 1977)

BIC ประมาณบางสิ่งที่แตกต่างกันซึ่งเกี่ยวข้องกับความยาวขั้นต่ำของคำอธิบาย Gelman และคณะ พูด:

BIC และตัวแปรต่าง ๆ นั้นอยู่ภายใต้เกณฑ์ข้อมูลอื่น ๆ ที่พิจารณาในที่นี้โดยได้รับแรงบันดาลใจไม่ใช่โดยการประมาณค่าพยากรณ์ แต่โดยเป้าหมายของการประมาณความหนาแน่นของความน่าจะเป็นที่ขอบของข้อมูล, p (y) ภายใต้โมเดล ประเมินความน่าจะเป็นหลังที่สัมพันธ์กันในการตั้งค่าการเปรียบเทียบแบบจำลองโดยสิ้นเชิง

ฉันไม่รู้อะไรเลยเกี่ยวกับเกณฑ์ข้อมูลอื่น ๆ ที่คุณระบุไว้โชคไม่ดี

คุณสามารถใช้เกณฑ์ข้อมูลคล้าย AIC สลับกันได้หรือไม่ ความคิดเห็นอาจแตกต่างกัน แต่เนื่องจาก AIC, DIC, WAIC และการตรวจสอบความถูกต้องทั้งหมดนั้นประมาณในสิ่งเดียวกันจากนั้นใช่ใช่พวกเขาสามารถแลกเปลี่ยนกันได้มากกว่าหรือน้อยกว่า BIC นั้นแตกต่างกันไป ฉันไม่รู้เกี่ยวกับคนอื่น

ทำไมมีมากกว่าหนึ่ง

  • AICทำงานได้ดีเมื่อคุณมีการประเมินความเป็นไปได้สูงสุดและนักบวชแบนด์ แต่ไม่มีอะไรจะพูดเกี่ยวกับสถานการณ์อื่น ๆ การลงโทษนั้นน้อยเกินไปเมื่อจำนวนพารามิเตอร์เข้าใกล้จำนวนจุดข้อมูล AICcแก้ไขมากกว่านี้ซึ่งอาจดีหรือไม่ดีขึ้นอยู่กับมุมมองของคุณ

  • DICใช้บทลงโทษที่น้อยกว่าหากชิ้นส่วนของแบบจำลองถูก จำกัด อย่างหนักโดยนักบวช นี่เป็นสิ่งที่ดีเนื่องจากพารามิเตอร์ที่มีข้อ จำกัด อย่างมากไม่ถือว่ามีอิสระอย่างเต็มที่ โชคไม่ดีที่สูตรที่ใช้สำหรับ DIC นั้นสมมติว่าส่วนหลังเป็นแบบเกาส์ (กล่าวคือมันถูกอธิบายอย่างดีด้วยค่าเฉลี่ย) และดังนั้นเราจึงสามารถได้ผลลัพธ์ที่แปลก (เช่นบทลงโทษเชิงลบ) ในบางสถานการณ์

  • WAICใช้ความหนาแน่นหลังทั้งหมดมีประสิทธิภาพมากกว่า DIC ดังนั้น Gelman และคณะ ชอบแม้ว่ามันจะเป็นความเจ็บปวดในการคำนวณในบางกรณี

  • การตรวจสอบความถูกต้องไขว้ไม่ได้ขึ้นอยู่กับสูตรเฉพาะใด ๆ แต่มันสามารถถูกห้ามใช้ในการคำนวณสำหรับหลายรุ่น

ในมุมมองของฉันการตัดสินใจเกี่ยวกับเกณฑ์การใช้งานแบบใดแบบหนึ่งของ AIC นั้นขึ้นอยู่กับปัญหาเชิงปฏิบัติประเภทต่าง ๆ เหล่านี้มากกว่าการพิสูจน์ทางคณิตศาสตร์ว่าสิ่งหนึ่งจะทำได้ดีกว่าอีกข้อหนึ่ง

การอ้างอิง :

Gelman และคณะ การทำความเข้าใจเกณฑ์ข้อมูลการทำนายสำหรับตัวแบบเบย์ วางจำหน่ายจากhttp://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf


3
นอกเหนือจากการอ้างอิงGelman et al. การทำความเข้าใจเกณฑ์ข้อมูลการทำนายสำหรับโมเดลแบบเบย์ดูกระดาษล่าสุด Aki Vehtari, Andrew Gelman และ Jonah Gabry (2016) การประเมินรูปแบบเบย์ในทางปฏิบัติโดยใช้การตรวจสอบความถูกต้องแบบลาก่อน - วัน - หนึ่ง - เอสและ WAIC ในสถิติและการคำนวณ, ดอย: 10.1007 / s11222-016-9696-4 พิมพ์ล่วงหน้า arXiv arXiv: 1507.04544 arxiv.org/abs/1507.04544บทความนี้แสดงให้เห็นว่าการตรวจสอบข้ามที่เชื่อถือได้สามารถคำนวณได้ในเวลาเล็กน้อยสำหรับรุ่นต่างๆ
Aki Vehtari

4

"สลับกันได้" เป็นคำที่แรงเกินไป พวกเขาทั้งหมดเป็นเกณฑ์ที่พยายามเปรียบเทียบแบบจำลองและค้นหาแบบจำลอง "ดีที่สุด" แต่แต่ละแบบกำหนดว่า "ดีที่สุด" แตกต่างกันและอาจระบุแบบจำลองที่แตกต่างกันว่า "ดีที่สุด"


0

“ เสนอประชามติ” เพียงเพื่อโหวต! ;-) ฉันชอบ CAIC (Bozdogan, 1987) และ BIC อย่างหมดจดจากการปฏิบัติส่วนตัวของฉันเพราะเกณฑ์เหล่านี้ให้โทษร้ายแรงสำหรับความซับซ้อนเราได้รับ parsimony มากขึ้น แต่ฉันมักจะแสดงรายการรุ่นที่ดี - เดลต้า 4-6 -8 (แทน 2) ในขั้นตอนของการตรวจสอบพารามิเตอร์ (เพราะเรามี "แบบจำลองที่ดีของผู้สมัคร"), ค่าเฉลี่ย MM (B&A) มักจะไม่มีอะไรเปลี่ยนแปลง ฉันสงสัยเล็กน้อยทั้งคลาสสิกเอไอซีและเอไอซี (H&T ซึ่งเป็นที่นิยมโดย B&A) เนื่องจากพวกเขามักจะให้ "ชั้นหนาของครีม" มาก ;-)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.