มีเหตุผลใดที่จะชอบ AIC หรือ BIC มากกว่าอีก?


222

AIC และ BIC เป็นทั้งสองวิธีในการประเมินแบบจำลองที่ถูกลงโทษสำหรับจำนวนพารามิเตอร์โดยประมาณ ดังที่ฉันเข้าใจ BIC จะลงโทษโมเดลสำหรับพารามิเตอร์ฟรีมากกว่า AIC นอกเหนือจากการตั้งค่าตามความเข้มงวดของเกณฑ์แล้วมีเหตุผลอื่นอีกไหมที่จะชอบ AIC มากกว่า BIC หรือในทางกลับกัน?


1
ฉันคิดว่าเป็นการเหมาะสมกว่าที่จะเรียกการสนทนานี้เป็นการเลือก "คุณสมบัติ" หรือเลือก "covariate" สำหรับฉันแล้วการเลือกรูปแบบนั้นกว้างกว่ามากซึ่งเกี่ยวข้องกับข้อกำหนดของการกระจายข้อผิดพลาดรูปแบบของฟังก์ชันลิงก์และรูปแบบของตัวแปรร่วม เมื่อเราพูดถึง AIC / BIC เรามักจะอยู่ในสถานการณ์ที่ทุกแง่มุมของการสร้างแบบจำลองได้รับการแก้ไขยกเว้นการเลือก covariates

6
การตัดสินใจร่วมที่เฉพาะเจาะจงเพื่อรวมไว้ในแบบจำลองนั้นโดยทั่วไปแล้วจะเป็นการเลือกแบบคำและมีหนังสือจำนวนมากที่มีการเลือกแบบจำลองในชื่อเรื่อง
Michael Chernick

ฉันไม่รู้ว่าคำถามของคุณใช้กับ phylogeny (bioinformatics) โดยเฉพาะหรือไม่ แต่ถ้าเป็นเช่นนั้นการศึกษานี้สามารถให้ความคิดบางอย่างเกี่ยวกับเรื่องนี้: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

คำถามที่ถูกรวมยังถามเกี่ยวกับ KICโปรดอัปเดตข้อความคำถามและระบุคำจำกัดความของ KIC ด้วยการเชื่อมโยงล่วงหน้า
smci

1
@smci ฉันได้เพิ่มstats.stackexchange.com/questions/383923/…เพื่อให้ผู้คนสามารถขุดเป็นคำถามที่เกี่ยวข้องกับ KIC หากสนใจ
russellpierce

คำตอบ:


179

คำถามของคุณหมายความว่า AIC และ BIC พยายามตอบคำถามเดียวกันซึ่งไม่เป็นความจริง AIC พยายามเลือกแบบจำลองที่อธิบายความเป็นจริงในมิติที่สูงที่ไม่รู้จักอย่างเพียงพอที่สุด ซึ่งหมายความว่าความเป็นจริงไม่เคยอยู่ในชุดของแบบจำลองผู้สมัครที่กำลังพิจารณา ในทางตรงกันข้าม BIC พยายามหาโมเดล TRUE ท่ามกลางกลุ่มผู้สมัคร ฉันคิดว่ามันค่อนข้างแปลกที่สมมติฐานว่าความเป็นจริงนั้นถูกยกตัวอย่างในแบบจำลองที่นักวิจัยสร้างขึ้นไปพร้อมกัน นี่เป็นปัญหาที่แท้จริงสำหรับ BIC

อย่างไรก็ตามมีนักวิจัยจำนวนมากที่กล่าวว่า BIC นั้นดีกว่า AIC โดยใช้แบบจำลองการกู้คืนแบบจำลองเป็นอาร์กิวเมนต์ การจำลองเหล่านี้ประกอบด้วยการสร้างข้อมูลจากแบบจำลอง A และ B และจากนั้นติดตั้งชุดข้อมูลทั้งสองด้วยแบบจำลองทั้งสอง การเกิด overfitting เกิดขึ้นเมื่อรูปแบบที่ไม่ถูกต้องเหมาะสมกับข้อมูลที่ดีกว่าการสร้าง จุดประสงค์ของแบบจำลองเหล่านี้คือการดูว่า AIC และ BIC แก้ไขชุดเหล่านี้ได้ดีเพียงใด โดยทั่วไปแล้วผลลัพธ์จะชี้ให้เห็นว่า AIC นั้นใจกว้างเกินไปและยังคงชอบแบบจำลองที่ซับซ้อนและผิดมากกว่าแบบจำลองที่ง่ายกว่าและเป็นจริง เมื่อมองแวบแรกการจำลองเหล่านี้ดูเหมือนจะเป็นข้อโต้แย้งที่ดีจริงๆ แต่ปัญหาของพวกเขาก็คือพวกเขาไม่มีความหมายสำหรับ AIC ดังที่ฉันได้กล่าวไว้ก่อนหน้านี้ AIC ไม่ได้พิจารณาว่ารูปแบบการสมัครใด ๆ ที่ทดสอบนั้นเป็นจริง ตาม AIC ทุกรุ่นมีความใกล้เคียงกับความเป็นจริง และความเป็นจริงไม่ควรมีมิติต่ำ อย่างน้อยก็ต่ำกว่าบางรุ่นของผู้สมัคร

คำแนะนำของฉันคือการใช้ทั้ง AIC และ BIC ส่วนใหญ่พวกเขาจะเห็นด้วยกับรูปแบบที่ต้องการเมื่อพวกเขาไม่เพียงรายงาน

หากคุณไม่พึงพอใจกับทั้ง AIC และ BIC และมีเวลาว่างในการลงทุนลองค้นหาคำอธิบายความยาวขั้นต่ำ (MDL) ซึ่งเป็นแนวทางที่แตกต่างอย่างสิ้นเชิงที่เอาชนะข้อ จำกัด ของ AIC และ BIC มีหลายมาตรการที่เกิดจาก MDL เช่นโอกาสสูงสุดปกติหรือการประมาณข้อมูลฟิชเชอร์ ปัญหาของ MDL คือความต้องการทางคณิตศาสตร์และ / หรือการคำนวณอย่างเข้มข้น

อย่างไรก็ตามหากคุณต้องการติดตั้งโซลูชันที่เรียบง่ายวิธีที่ดีสำหรับการประเมินความยืดหยุ่นของโมเดล (โดยเฉพาะเมื่อจำนวนพารามิเตอร์เท่ากันการเรนเดอร์ AIC และ BIC ไร้ประโยชน์) กำลังทำ Parametric Bootstrap ซึ่งค่อนข้างง่ายต่อการใช้งาน นี่คือลิงค์ไปยังกระดาษบนมัน

บางคนที่นี่สนับสนุนให้ใช้การตรวจสอบข้าม ฉันได้ใช้มันเป็นการส่วนตัวและไม่ได้ทำอะไรกับมันเลย แต่ปัญหาที่เกิดขึ้นกับมันคือการเลือกระหว่างกฎการตัดตัวอย่าง (การลาออกหนึ่งครั้ง K-fold ฯลฯ ) เป็นสิ่งที่ไม่มีหลักการ


7
ความแตกต่างที่สามารถดูได้อย่างหมดจดจากมุมมองทางคณิตศาสตร์ - BIC ได้มาเป็นขยายตัวเชิงการเข้าสู่ระบบ P (ข้อมูล) ที่พารามิเตอร์แบบจริงเป็นตัวอย่างตามโดยพลการไม่มีที่ไหนเลยที่หายไปก่อน AIC ได้มาในทำนองเดียวกันกับพารามิเตอร์จริงจัดขึ้นคงที่
ยาโรสลาฟ Bulatov

4
คุณกล่าวว่า "มีนักวิจัยจำนวนมากที่บอกว่า BIC นั้นดีกว่า AIC โดยใช้การจำลองการกู้คืนแบบจำลองเป็นอาร์กิวเมนต์การจำลองเหล่านี้ประกอบด้วยการสร้างข้อมูลจากแบบจำลอง A และ B จากนั้นติดตั้งชุดข้อมูลทั้งสองกับแบบจำลองทั้งสอง" คุณจะกรุณาชี้ไปที่การอ้างอิงบางส่วน ฉันอยากรู้เกี่ยวกับพวกเขา! :)
deps_stats

2
ฉันไม่เชื่อข้อความในบทความนี้
user9352

16
(-1) คำอธิบายที่ดี แต่ฉันต้องการท้าทายการยืนยัน @Dave Kellen คุณช่วยอ้างอิงถึงความคิดที่ว่าโมเดล TRUE นั้นอยู่ในกลุ่ม BIC ได้หรือไม่? ฉันต้องการตรวจสอบเรื่องนี้เนื่องจากในหนังสือเล่มนี้ผู้เขียนให้หลักฐานที่น่าเชื่อถือว่านี่ไม่ใช่กรณี
gui11aume

2
คำตอบที่ดี แต่ฉันไม่เห็นด้วยอย่างยิ่งกับคำว่า "ความจริงไม่ควรมีมิติต่ำ" ขึ้นอยู่กับสิ่งที่ "วิทยาศาสตร์" ที่คุณใช้กับแบบจำลองโยรู
เดวิด

76

แม้ว่า AIC และ BIC เป็นทั้งการประเมินความเป็นไปได้สูงสุดและการลงโทษพารามิเตอร์ฟรีในความพยายามที่จะต่อสู้ overfitting พวกเขาทำในลักษณะที่ส่งผลให้พฤติกรรมที่แตกต่างกันอย่างมีนัยสำคัญ ให้ดูที่รุ่นหนึ่งที่นำเสนอโดยทั่วไปของวิธีการ (ซึ่งรูปแบบผลลัพธ์ที่กำหนดข้อผิดพลาดการกระจายตามปกติและข้อสันนิษฐานพฤติกรรมอื่น ๆ ที่ดี):

  • AIC = -2 * ln (โอกาส) + 2 * k

และ

  • BIC = -2 * ln (โอกาส) + ln (N) * k

ที่อยู่:

  • k = องศาอิสระโมเดล
  • N = จำนวนการสังเกต

แบบจำลองที่ดีที่สุดในกลุ่มเปรียบเทียบคือรุ่นที่ลดคะแนนเหล่านี้ในทั้งสองกรณี เห็นได้ชัดว่า AIC ไม่ได้ขึ้นอยู่กับขนาดตัวอย่างโดยตรง ยิ่งไปกว่านั้นการพูดโดยทั่วไป AIC นำเสนออันตรายที่อาจเกินความคาดหมายในขณะที่ BIC นำเสนออันตรายที่อาจทำให้เกิดความไม่สะดวกเพียงแค่อาศัยวิธีที่พวกเขาลงโทษพารามิเตอร์ฟรี (2 * k ใน AIC; ln (N) * k ใน BIC) Diachronically เป็นข้อมูลถูกนำมาใช้และคะแนนถูกคำนวณใหม่ที่ค่อนข้างต่ำ N (7 และน้อยกว่า) BIC มีความอดทนต่อพารามิเตอร์ฟรีมากกว่า AIC แต่ทนน้อยกว่าที่ N (ตามธรรมชาติของบันทึกของ N 2)

นอกจากนี้ AIC ยังมุ่งหารูปแบบการประมาณที่ดีที่สุดสำหรับกระบวนการสร้างข้อมูลที่ไม่รู้จัก (ผ่านการลดความคลาดเคลื่อน KL ที่คาดไว้โดยย่อ) เช่นนี้มันล้มเหลวในการรวมตัวกันของความน่าจะเป็นของตัวแบบจริง (สมมติว่ามีอยู่ในกลุ่มที่ประเมิน) ในขณะที่ BIC จะมาบรรจบกันเมื่อ N มีแนวโน้มที่จะไม่มีที่สิ้นสุด

ดังนั้นในคำถามเกี่ยวกับระเบียบวิธีหลายข้อซึ่งเป็นที่ต้องการนั้นขึ้นอยู่กับสิ่งที่คุณพยายามทำวิธีการอื่น ๆ ที่มีอยู่หรือไม่และมีคุณลักษณะใด ๆ ที่ระบุไว้ (การบรรจบกันความทนทานต่อสัมพัทธ์สำหรับพารามิเตอร์อิสระ ) พูดกับเป้าหมายของคุณ


8
|t|>2|t|>log(n)

2
คำตอบที่ดี +1 โดยเฉพาะอย่างยิ่งฉันชอบข้อแม้เกี่ยวกับว่าแบบจำลองที่แท้จริงมีอยู่จริงในกลุ่มที่ประเมินหรือไม่ ฉันจะยืนยันว่า "รูปแบบที่แท้จริง" ไม่เคยปรากฏ (Box & Draper กล่าวว่า "ทุกรุ่นเป็นของปลอม แต่มีประโยชน์บ้าง" และ Burnham & Anderson เรียกสิ่งนี้ว่า "ขนาดเอฟเฟ็กต์การเรียว") ซึ่งเป็นเหตุผลที่ฉันไม่รู้สึกประทับใจกับการบรรจบกันของ BIC ภายใต้สมมติฐานที่ไม่สมจริง ในการประมาณค่าที่ดีที่สุดในโมเดลที่เราดูจริงๆ
Stephan Kolassa

68

คำอธิบายสั้น ๆ ของฉันคือ

  • AIC นั้นดีที่สุดสำหรับการคาดคะเนเนื่องจากจะเท่ากับ asymptotically เทียบเท่ากับการตรวจสอบข้าม
  • BIC เป็นคำอธิบายที่ดีที่สุดเนื่องจากช่วยให้สามารถประเมินกระบวนการสร้างข้อมูลพื้นฐานได้อย่างต่อเนื่อง

AIC เทียบเท่ากับการตรวจสอบความถูกต้องข้ามแบบ K-fold BIC เทียบเท่ากับการตรวจสอบความถูกต้องข้ามทางอ้อมหนึ่งระดับ ทฤษฏีทั้งสองมีไว้เฉพาะในกรณีของการถดถอยเชิงเส้น

5
mbq, มันคือ AIC / LOO (ไม่ใช่ LKO หรือ K-fold) และฉันไม่คิดว่าการพิสูจน์ใน Stone 1977 ต้องอาศัยโมเดลเชิงเส้น ฉันไม่ทราบรายละเอียดของผล BIC
ars

11
ars ถูกต้อง มันคือ AIC = LOO และ BIC = K-fold โดยที่ K คือฟังก์ชันที่ซับซ้อนของขนาดตัวอย่าง
Rob Hyndman

ขอแสดงความยินดีคุณมีฉันแล้ว ฉันรีบเขียนอย่างนั้นและดังนั้นฉันจึงทำผิดพลาดนี้เห็นได้ชัดว่ามันเป็นวิธีที่ร็อบเขียน ไม่เคยมาจาก Shao 1995 ซึ่งเป็นข้อสันนิษฐานว่าแบบจำลองนั้นเป็นแบบเส้นตรง ฉันจะวิเคราะห์สโตนฉันยังคิดว่าคุณอาจจะใช่เพราะ LOO ในสาขาของฉันมีชื่อเสียงไม่ดีเท่ากัน * ไอซีต่างๆ

คำอธิบายเกี่ยวกับ Wikipedia ( en.wikipedia.org/wiki/… ) ทำให้ดูเหมือนว่าการตรวจสอบความถูกต้องข้าม K-fold นั้นเหมือนกับการจำลองซ้ำเพื่อประเมินความเสถียรของพารามิเตอร์ ฉันเห็นได้ว่าเหตุใด AIC จึงคาดว่าจะมีเสถียรภาพด้วย LOO (เนื่องจาก LOO สามารถดำเนินการได้อย่างหมดจด) แต่ฉันไม่เข้าใจว่าทำไม BIC จะเสถียรกับ K-fold เว้นแต่ K จะครบถ้วนสมบูรณ์ สูตรที่ซับซ้อนที่อ้างอิงค่า K ทำให้หมดแรงหรือไม่? หรือเป็นอย่างอื่นที่เกิดขึ้น?
russellpierce

16

จากประสบการณ์ของฉัน BIC ส่งผลให้เกิดการ underfitting อย่างจริงจังและโดยทั่วไป AIC จะทำงานได้ดีเมื่อเป้าหมายคือการเลือกปฏิบัติที่คาดการณ์ได้สูงสุด


1
Super ล่าช้า แต่เนื่องจากยังมีการจัดอันดับสูงใน Google คุณคิดอย่างละเอียดว่าคุณกำลังทำงานในด้านใด ฉันแค่อยากรู้ว่าถ้ามีผลกระทบของโดเมนที่เราควรดู
verybadatthis

@verybadatthis: ชีวสถิติคลินิก (เพียง google "Frank Harrell" เขามีเว็บ)
Ben Bolker

13

"การสืบทอด" ที่ให้ข้อมูลและเข้าถึงได้ของ AIC และ BIC โดย Brian Ripley สามารถดูได้ที่นี่: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

ริปลีย์ให้ข้อสังเกตเกี่ยวกับสมมติฐานที่อยู่เบื้องหลังผลลัพธ์ทางคณิตศาสตร์ ตรงข้ามกับคำตอบอื่น ๆ ที่บ่งบอกว่าริบลีย์เน้นว่า AIC นั้นตั้งอยู่บนพื้นฐานของการสมมติว่าแบบจำลองนั้นเป็นจริง หากโมเดลไม่เป็นจริงการคำนวณทั่วไปจะแสดงว่า "จำนวนพารามิเตอร์" ต้องถูกแทนที่ด้วยปริมาณที่ซับซ้อนมากขึ้น มีการอ้างอิงบางอย่างในสไลด์ของ Ripleys อย่างไรก็ตามโปรดสังเกตว่าสำหรับการถดถอยเชิงเส้น (การพูดอย่างเคร่งครัดกับความแปรปรวนที่รู้จัก) โดยทั่วไปแล้วปริมาณที่ซับซ้อนมากขึ้นจะลดความซับซ้อนของจำนวนพารามิเตอร์


3
(+1) อย่างไรก็ตาม Ripley ผิดในจุดที่เขาบอกว่านางแบบต้องซ้อนอยู่ ไม่มีข้อ จำกัด เช่นนี้เกี่ยวกับการสืบทอดดั้งเดิมของ Akaike หรือเพื่อความชัดเจนในการสืบทอดโดยใช้ AIC เป็นตัวประมาณค่าการเบี่ยงเบนของ Kullback-Leibler ในความเป็นจริงในกระดาษที่ฉันกำลังทำงานอยู่ฉันแสดงค่อนข้าง "สังเกตุ" ว่า AIC สามารถใช้สำหรับการเลือกรูปแบบของโครงสร้างความแปรปรวนร่วม (จำนวนพารามิเตอร์ที่แตกต่างกัน จากการจำลองหลายพันครั้งของอนุกรมเวลาที่ฉันวิ่งด้วยโครงสร้างความแปรปรวนร่วมที่แตกต่างกันไม่มีใครในพวกเขาที่ AIC ทำผิด ...
Néstor

... ถ้าแบบจำลอง "ที่ถูกต้อง" นั้นเป็นจริงในชุดของแบบจำลอง (อย่างไรก็ตามนี่ก็หมายความว่าสำหรับโมเดลที่ฉันกำลังทำงานอยู่ความแปรปรวนของตัวประมาณนั้นมีขนาดเล็กมาก ... แต่นั่นเป็นเพียงเทคนิคเท่านั้น ดูรายละเอียด)
Néstor

1
@ Néstorฉันเห็นด้วย ประเด็นเกี่ยวกับแบบจำลองที่ซ้อนกันนั้นแปลก
NRH

3
เมื่อเลือกโครงสร้างความแปรปรวนร่วมสำหรับข้อมูลระยะยาว (โมเดลเอฟเฟกต์ผสมหรือสี่เหลี่ยมทั่วไปน้อยที่สุด) AIC สามารถค้นหาโครงสร้างที่ไม่ถูกต้องได้อย่างง่ายดายหากมีโครงสร้างผู้สมัครมากกว่า 3 ราย หากมีมากกว่า 3 คุณจะต้องใช้ bootstrap หรือวิธีการอื่นเพื่อปรับความไม่แน่นอนของแบบจำลองที่เกิดจากการใช้ AIC เพื่อเลือกโครงสร้าง
Frank Harrell

8

ความแตกต่างเพียงอย่างเดียวคือ BIC คือ AIC ที่ขยายเพื่อพิจารณาจำนวนของวัตถุ (ตัวอย่าง) ฉันจะบอกว่าในขณะที่ทั้งสองค่อนข้างอ่อนแอ (เมื่อเทียบกับการตรวจสอบข้ามตัวอย่าง) มันจะดีกว่าที่จะใช้ AIC มากกว่าคนอื่นจะคุ้นเคยกับตัวย่อ - แน่นอนฉันไม่เคยเห็นกระดาษหรือโปรแกรมที่ BIC จะ ถูกนำมาใช้ (ยังฉันยอมรับว่าฉันลำเอียงกับปัญหาที่เกณฑ์ดังกล่าวก็ไม่ทำงาน)

แก้ไข: AIC และ BIC เทียบเท่ากับการตรวจสอบข้ามที่ให้ไว้สองข้อสมมติฐานที่สำคัญ - เมื่อมีการกำหนดดังนั้นเมื่อรูปแบบเป็นโอกาสสูงสุดที่หนึ่งและเมื่อคุณสนใจเฉพาะประสิทธิภาพของแบบจำลองในข้อมูลการฝึกอบรม ในกรณีที่การยุบข้อมูลบางส่วนลงในฉันทามติบางอย่างพวกเขาก็โอเคอย่างสมบูรณ์แบบ
ในกรณีของการสร้างเครื่องทำนายปัญหาจริงบางอย่างสิ่งแรกเป็นเท็จเนื่องจากชุดฝึกอบรมของคุณเป็นเพียงเศษเสี้ยวของข้อมูลเกี่ยวกับปัญหาที่คุณกำลังเผชิญอยู่ดังนั้นคุณจึงไม่สามารถปรับโมเดลให้เหมาะสมได้ ข้อที่สองเป็นเท็จเพราะคุณคาดหวังว่าแบบจำลองของคุณจะจัดการกับข้อมูลใหม่ที่คุณไม่สามารถคาดหวังได้ว่าชุดฝึกอบรมจะเป็นตัวแทน และท้ายที่สุดนี้ CV ก็ถูกประดิษฐ์ขึ้นมา เพื่อจำลองพฤติกรรมของโมเดลเมื่อเผชิญหน้ากับข้อมูลที่เป็นอิสระ ในกรณีที่เลือกรูปแบบ CV ไม่เพียง แต่ให้คุณภาพโดยประมาณ แต่ยังมีการกระจายคุณภาพโดยประมาณดังนั้นจึงมีข้อได้เปรียบที่ยอดเยี่ยมที่สามารถพูดได้ว่า "ฉันไม่รู้ว่าข้อมูลใหม่จะมาจากอะไร ดีกว่า."


นั่นหมายความว่าสำหรับบางตัวอย่างขนาด BIC อาจเข้มงวดน้อยกว่า AIC หรือไม่
russellpierce

1
เข้มงวดไม่ใช่คำที่ดีที่สุดที่นี่ แต่ทนต่อพารามิเตอร์ได้มากกว่า ยังคง yup สำหรับคำจำกัดความทั่วไป (ที่มีบันทึกธรรมชาติ) มันเกิดขึ้นสำหรับ 7 และวัตถุน้อยลง

AIC นั้นเทียบเท่ากับการตรวจสอบข้ามแบบเชิงเส้นกำกับ
Rob Hyndman

5
@mbq - ฉันไม่เห็นว่าการตรวจสอบข้ามเอาชนะปัญหา "การไม่เป็นตัวแทน" อย่างไร หากข้อมูลการฝึกอบรมของคุณไม่ได้เป็นตัวแทนของข้อมูลที่คุณจะได้รับในอนาคตคุณสามารถตรวจสอบข้ามสิ่งที่คุณต้องการได้ แต่จะไม่เป็นตัวแทนของ "ข้อผิดพลาดทั่วไป" ที่คุณกำลังเผชิญอยู่ (เช่น " "ข้อมูลใหม่จริงไม่ได้ถูกแสดงโดยส่วนที่ไม่ใช่แบบจำลองของข้อมูลการฝึกอบรม) การรับชุดข้อมูลตัวแทนมีความสำคัญหากคุณคาดการณ์ได้ดี
ความน่าจะเป็นของระบบ

1
@mbq - ประเด็นของฉันคือคุณดูเหมือนจะ "ค่อยๆปฏิเสธ" การเลือกใช้ IC ตามทางเลือกซึ่งไม่สามารถแก้ไขปัญหาได้ การตรวจสอบความถูกต้องไขว้เป็นสิ่งที่ดี (แม้ว่าการคำนวณจะคุ้มค่าหรือไม่) แต่ข้อมูลที่ไม่เป็นตัวแทนไม่สามารถจัดการกับการใช้กระบวนการที่ขับเคลื่อนด้วยข้อมูลได้ อย่างน้อยก็ไม่น่าเชื่อถือ คุณต้องมีข้อมูลก่อนซึ่งจะบอกคุณว่ามันไม่ได้เป็นตัวแทน (หรือโดยทั่วไปแล้วการเชื่อมต่อแบบลอจิคัลใดที่ข้อมูล "การไม่เป็นตัวแทน" นั้นมีข้อมูลในอนาคตที่คุณจะสังเกตเห็น)
ความน่าจะเป็นของระบบ

5

ดังที่คุณกล่าวถึง AIC และ BIC เป็นวิธีการลงโทษแบบจำลองสำหรับการมีตัวแปรถดถอยมากขึ้น ฟังก์ชั่นการลงโทษจะใช้ในวิธีการเหล่านี้ซึ่งเป็นฟังก์ชั่นของจำนวนพารามิเตอร์ในรูปแบบ

  • เมื่อใช้ AIC ฟังก์ชั่นการลงโทษคือZ (P) = 2 หน้า

  • เมื่อใช้ BIC ฟังก์ชันการลงโทษคือz (p) = p ln ( n ) ซึ่งขึ้นอยู่กับการตีความการลงโทษที่ได้มาจากข้อมูลก่อนหน้า (ดังนั้นชื่อเกณฑ์ข้อมูล Bayesian)

เมื่อnมีขนาดใหญ่ทั้งสองรุ่นจะให้ผลลัพธ์ที่แตกต่างกันมาก จากนั้น BIC จะใช้บทลงโทษที่มีขนาดใหญ่กว่าสำหรับโมเดลที่ซับซ้อนและด้วยเหตุนี้จะนำไปสู่โมเดลที่ง่ายกว่า AIC อย่างไรก็ตามตามที่ระบุไว้ในWikipedia บน BIC :

ควรสังเกตว่าในหลาย ๆ แอปพลิเคชั่น ... BIC จะลดการเลือกความน่าจะเป็นสูงสุดเนื่องจากจำนวนพารามิเตอร์มีค่าเท่ากันสำหรับรุ่นที่น่าสนใจ


4
โปรดทราบว่า AIC นั้นเทียบเท่ากับ ML เมื่อมิติไม่เปลี่ยนแปลง คำตอบของคุณทำให้ดูเหมือนว่านี่เป็นเพียงสำหรับ BIC
ความน่าจะเป็นของระบบ

5

จากสิ่งที่ฉันสามารถบอกได้ไม่มีอะไรแตกต่างกันมากระหว่าง AIC และ BIC พวกเขาทั้งสองมีความสะดวกสบายในการประมาณทางคณิตศาสตร์ที่สามารถทำได้เพื่อเปรียบเทียบแบบจำลองได้อย่างมีประสิทธิภาพ หากพวกเขาให้แบบจำลองที่ "ดีที่สุด" ให้คุณแตกต่างนั่นอาจหมายความว่าคุณมีความไม่แน่นอนสูงซึ่งเป็นเรื่องสำคัญที่คุณต้องกังวลมากกว่าว่าคุณควรใช้ AIC หรือ BIC ฉันชอบ BIC มากกว่าเพราะมันถามโมเดลมากขึ้น (น้อยลง) ถ้ามีข้อมูลมากขึ้น (น้อยลง) เพื่อให้พอดีกับพารามิเตอร์ของมัน - เช่นครูขอให้มีมาตรฐานการทำงานที่สูงขึ้น (ต่ำลง) ถ้านักเรียนมีมากขึ้น (น้อยลง) ) เวลาที่จะเรียนรู้เกี่ยวกับเรื่อง สำหรับฉันนี่ดูเหมือนจะเป็นสิ่งที่ใช้งานง่ายที่จะทำ แต่ฉันก็มั่นใจว่ามีข้อโต้แย้งที่ใช้งานง่ายและน่าสนใจสำหรับ AIC เช่นกันด้วยรูปแบบที่เรียบง่าย

ตอนนี้เมื่อใดก็ตามที่คุณทำการประมาณจะมีเงื่อนไขบางอย่างเมื่อการประมาณเหล่านั้นเป็นขยะ สิ่งนี้สามารถเห็นได้อย่างแน่นอนสำหรับ AIC ซึ่งมี "การปรับ" (AICc) จำนวนมากเพื่ออธิบายถึงเงื่อนไขบางประการซึ่งทำให้การประมาณค่าดั้งเดิมไม่ดี สิ่งนี้ยังมีอยู่สำหรับ BIC เนื่องจากมีวิธีการอื่นที่แม่นยำกว่า (แต่ยังมีประสิทธิภาพ) อยู่เช่นการประมาณ Laplace แบบเต็มต่อการผสมของ g-priors ของ Zellner (BIC เป็นการประมาณวิธีการแบบ Laplace ประมาณสำหรับการอินทิกรัล)

ที่เดียวที่พวกเขามีทั้งอึคือเมื่อคุณมีข้อมูลก่อนหน้ามากมายเกี่ยวกับพารามิเตอร์ภายในโมเดลที่กำหนด AIC และ BIC จะทำการลงโทษแบบจำลองโดยไม่จำเป็นซึ่งเป็นที่รู้จักกันเพียงบางส่วนของพารามิเตอร์เมื่อเทียบกับรุ่นที่ต้องการพารามิเตอร์ที่จะประเมินจากข้อมูล

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

จากนั้นให้กำหนดแบบจำลองความน่าจะเป็นแบบเดียวกันต่อไป (พารามิเตอร์เดียวกันข้อมูลเดียวกันการประมาณแบบเดียวกัน ฯลฯ ) ฉันจะได้ค่า BIC ชุดเดียวกัน มันเป็นเพียงการแนบความหมายที่เป็นเอกลักษณ์บางอย่างกับตัวอักษรตรรกะ "M" เท่านั้นที่จะถูกดึงเข้าไปในคำถามที่ไม่เกี่ยวข้องกับ "รูปแบบที่แท้จริง" (echoes ของ "ศาสนาที่แท้จริง") สิ่งเดียวที่ "กำหนด" M คือสมการทางคณิตศาสตร์ที่ใช้ในการคำนวณของพวกเขา - และนี่ก็แทบจะไม่ได้นิยามคำนิยามเดียว ฉันสามารถนำเสนอการทำนายอย่างเท่าเทียมกันเกี่ยวกับ M ("โมเดล ith จะให้การคาดการณ์ที่ดีที่สุด") โดยส่วนตัวฉันไม่สามารถเห็นได้ว่าสิ่งนี้จะเปลี่ยนโอกาสใด ๆ และด้วยเหตุนี้วิธีการที่ดีหรือไม่ดี BIC จะเป็นอย่างไร (AIC สำหรับเรื่องนั้นเช่นกัน - แม้ว่า AIC ขึ้นอยู่กับการสืบทอดที่แตกต่างกัน)

และนอกจากนี้สิ่งผิดปกติกับคำสั่งหากรูปแบบที่แท้จริงคือในชุดที่ฉันกำลังพิจารณาแล้วมีความเป็นไปได้ 57% ว่ามันเป็นรูปแบบ B ดูเหมือนว่าสมเหตุสมผลพอสำหรับฉันหรือคุณสามารถไปที่ "อ่อน" มากขึ้นมีความน่าจะเป็น 57% ว่ารุ่น B เป็นสิ่งที่ดีที่สุดในการพิจารณา

หนึ่งความคิดเห็นล่าสุด: ฉันคิดว่าคุณจะพบกับความคิดเห็นเกี่ยวกับ AIC / BIC มากเท่าที่มีคนที่รู้เกี่ยวกับพวกเขา


4

ไม่ควรใช้ AIC เนื่องจากมันใช้ได้เฉพาะกับ asymptotically เท่านั้น เป็นการดีกว่าที่จะใช้ AICc เกือบทุกครั้ง (AIC ด้วย a orrection cสำหรับขนาดตัวอย่าง จำกัด ) AIC มีแนวโน้มที่จะทำให้พารามิเตอร์มากเกินไป: ปัญหานั้นลดลงอย่างมากกับ AICc ข้อยกเว้นหลักในการใช้ AICc คือเมื่อการแจกแจงพื้นฐานเป็นอย่างมาก leptokurtic สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูหนังสือการเลือกแบบจำลองโดย Burnham & Anderson


1
ดังนั้นสิ่งที่คุณกำลังพูดคือ AIC ไม่ได้ลงโทษโมเดลอย่างเพียงพอสำหรับพารามิเตอร์ดังนั้นการใช้มันเป็นเกณฑ์อาจนำไปสู่การ overparametrization คุณแนะนำให้ใช้ AICc แทน เพื่อนำกลับมาใช้ในบริบทของคำถามเริ่มต้นของฉันเนื่องจาก BIC มีความเข้มงวดมากกว่า AIC อยู่แล้วมีเหตุผลที่จะใช้ AICc กับ BIC หรือไม่
russellpierce

1
คุณหมายถึงอะไรโดย AIC ถูกต้อง asymptotically ดังที่ John Taylor AIC ได้กล่าวเอาไว้ ฉันคิดว่าสิ่งที่เขาได้เปรียบกับ AIC กับ BIC นั้นเป็นสิ่งที่ดีที่สุด ฉันไม่เห็นทั้งสองเหมือนกันกับการตรวจสอบข้าม พวกเขาทุกคนมีคุณสมบัติที่ดีที่พวกเขามักจะสูงสุดในรูปแบบที่มีน้อยกว่าจำนวนสูงสุดของตัวแปร แต่พวกเขาทั้งหมดสามารถเลือกรุ่นที่แตกต่างกัน
Michael Chernick

4

AIC และ BIC เป็นเกณฑ์ข้อมูลสำหรับการเปรียบเทียบแบบจำลอง แต่ละคนพยายามที่จะรักษาสมดุลของแบบจำลองและ parsimony และแต่ละการลงโทษแตกต่างกันสำหรับจำนวนของพารามิเตอร์

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

ฉันไม่เคยได้ยิน KIC


ไม่เคยได้ยินเกี่ยวกับ KIC เช่นกัน แต่สำหรับ AIC และ BIC ดูคำถามที่เชื่อมโยงหรือค้นหา AIC stats.stackexchange.com/q/577/442
Henrik

1
(คำตอบนี้ถูกรวมจากคำถามซ้ำที่ขอการตีความ "KIC" ด้วย)
whuber

3
โมเดลไม่จำเป็นต้องซ้อนเพื่อเปรียบเทียบกับ AIC หรือ BIC
มาโคร

1

สั้นมาก:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=ขนาดตัวอย่าง (Shao 1997) มี BIC รุ่นต่าง ๆ มากมายซึ่งลงมาเพื่อทำการประมาณความแตกต่างของความน่าจะเป็นหรือความแตกต่างของนักบวชที่แตกต่างกัน เช่นแทนที่จะใช้ชุดก่อนของแบบจำลองเป็นไปได้ทั้งหมดในขณะที่ BIC เดิม EBIC ใช้ชุดก่อนของแบบจำลองที่มีขนาดคงที่ ( เฉินและเฉิน 2008 ) ในขณะที่BICq ใช้การกระจาย Bernouilli ระบุความน่าจะเป็นก่อนสำหรับแต่ละพารามิเตอร์ที่จะรวม

lambda=2lambda=log(n)ซึ่งการเพิ่มประสิทธิภาพหนึ่งวัตถุประสงค์ (LASSO หรือการถดถอยสุทธิแบบยืดหยุ่น) ตามด้วยการปรับพารามิเตอร์การทำให้เป็นมาตรฐานขึ้นอยู่กับวัตถุประสงค์อื่น (เช่นลดข้อผิดพลาดการตรวจสอบข้ามการตรวจสอบความถูกต้อง AIC หรือ BIC)

n1n

โปรดทราบว่าข้อผิดพลาด LOOCV สามารถคำนวณได้จากส่วนที่เหลือและเส้นทแยงมุมของเมทริกซ์ของหมวกโดยไม่ต้องทำการตรวจสอบความถูกต้องไขว้ นี่จะเป็นอีกทางเลือกหนึ่งของ AIC ในฐานะที่เป็นการประมาณค่าเชิงเส้นกำกับของข้อผิดพลาด LOOCV

อ้างอิง

Stone M. (1977) ความเท่าเทียมเชิงซีมโทติคของการเลือกแบบจำลองโดยการตรวจสอบข้ามและเกณฑ์ของ Akaike วารสารสมาคมสถิติราชวงศ์ B. 39, 44–7

Shao J. (1997) ทฤษฎี asymptotic สำหรับการเลือกแบบจำลองเชิงเส้น Statistica Sinica 7, 221-242

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.