สิ่งที่จำเป็นต้องมีสำหรับการเปรียบเทียบแบบจำลอง AIC


26

อะไรคือสิ่งที่จำเป็นต้องมีซึ่งจำเป็นต้องทำให้สำเร็จสำหรับการเปรียบเทียบแบบจำลอง AIC กับการทำงาน

ฉันเพิ่งพบคำถามนี้เมื่อฉันเปรียบเทียบเช่นนี้

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

วิธีนี้ผมธรรมการเปลี่ยนแปลงของตัวแปรlog usiliแต่ฉันไม่รู้ว่าฉันสามารถเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ตัวอย่างเช่นตัวแปรตามนั้นแตกต่างกันหรือไม่?

คำตอบในอุดมคติจะรวมรายการของสิ่งที่จำเป็นต้องมี (ข้อสมมติฐานทางคณิตศาสตร์)

คำตอบ:


29

คุณไม่สามารถเปรียบเทียบรุ่นทั้งสองได้เนื่องจากพวกเขาไม่ได้จำลองตัวแปรเดียวกัน อย่างไรก็ตาม AIC ควรทำงานเมื่อเปรียบเทียบทั้งแบบซ้อนและแบบไม่ซ้อนกัน

เพียงเตือนความจำก่อนที่เราจะดำเนินการต่อไป: บันทึกความเป็นไปได้ของ Gaussian

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

Kเป็นโครงสร้างความแปรปรวนร่วมของโมเดลของคุณจำนวนคะแนนในชุดข้อมูลของคุณการตอบสนองเฉลี่ยและตัวแปรตามของคุณ|D|μx

โดยเฉพาะอย่างยิ่ง AIC จะถูกคำนวณให้เท่ากับโดยที่คือจำนวนเอฟเฟกต์คงที่ในโมเดลของคุณและฟังก์ชันโอกาสของคุณ [1] มันเปรียบเทียบการแลกเปลี่ยนระหว่างความแปรปรวน ( ) และอคติ ( ) ในสมมติฐานการสร้างแบบจำลองของคุณ เช่นในกรณีของคุณมันจะเปรียบเทียบโครงสร้างบันทึกความน่าจะเป็นสองแบบที่แตกต่างกันเมื่อมันมาถึงคำอคติ นั่นเป็นเพราะเมื่อคุณคำนวณความน่าจะเป็นในการบันทึกของคุณคุณจะมองดูสองคำศัพท์: คำที่เหมาะสม, แสดงโดยและเงื่อนไขการลงโทษที่ซับซ้อนแสดงโดย2k2log(L)kL2k2log(L)12(xμ)TK1(xμ)12log(|K|). ดังนั้นคุณจะเห็นว่าคำศัพท์ที่เหมาะสมของคุณนั้นแตกต่างกันอย่างสิ้นเชิงระหว่างสองรุ่น ในกรณีแรกคุณเปรียบเทียบส่วนที่เหลือจากข้อมูลดิบและในกรณีอื่น ๆ ส่วนที่เหลือของข้อมูลที่บันทึกไว้

นอกเหนือจาก Wikipedia แล้ว AIC ยังกำหนดให้เท่าเทียมกัน: [3]; รูปแบบนี้ทำให้ชัดเจนยิ่งขึ้นว่าทำไมรุ่นที่แตกต่างกับตัวแปรตามที่แตกต่างกันจึงไม่สามารถเปรียบเทียบกันได้ RSS เป็นสองกรณีที่ไม่มีใครเทียบได้ระหว่างทั้งสอง|D|log(RSS|D|)+2k

กระดาษดั้งเดิมของ Akaike [4] จริง ๆ แล้วค่อนข้างยากที่จะเข้าใจ (ฉันคิดว่า) มันขึ้นอยู่กับความแตกต่างของ KL (ความแตกต่างระหว่างการแจกแจงสองคำโดยประมาณ) และดำเนินการเพื่อพิสูจน์ว่าคุณสามารถประมาณการกระจายที่แท้จริงที่ไม่รู้จักของข้อมูลของคุณและเปรียบเทียบกับการกระจายของข้อมูลที่โมเดลของคุณถือว่า นั่นเป็นเหตุผลที่"คะแนน AIC ที่เล็กกว่าดีกว่า" ; คุณอยู่ใกล้กับการกระจายที่แท้จริงของข้อมูลของคุณโดยประมาณ

ดังนั้นเมื่อนำ AIC มารวมกันสิ่งที่ชัดเจนที่ควรจดจำเมื่อใช้ร่วมกันคือสาม [2,5]:

  1. คุณไม่สามารถใช้มันเพื่อเปรียบเทียบแบบจำลองของชุดข้อมูลที่แตกต่างกัน

  2. คุณควรใช้ตัวแปรตอบกลับที่เหมือนกันสำหรับโมเดลตัวเลือกทั้งหมด

  3. คุณควรมีเพราะมิฉะนั้นคุณจะไม่ได้รับความมั่นคงเชิงซีมโทติคที่ดี|D|>>k

ขออภัยที่จะทำลายข่าวร้ายแก่คุณ แต่การใช้ AIC เพื่อแสดงว่าคุณกำลังเลือกตัวแปรตามหนึ่งตัวเหนืออีกตัวหนึ่งไม่ใช่สิ่งที่ควรทำในเชิงสถิติ ตรวจสอบการกระจายตัวของส่วนที่เหลือของคุณในทั้งสองรุ่นถ้ากรณีข้อมูลที่บันทึกไว้มีการแจกแจงส่วนที่เหลือตามปกติและกรณีข้อมูลดิบไม่คุณมีเหตุผลทั้งหมดที่คุณอาจต้องการ คุณอาจต้องการตรวจสอบว่าข้อมูลดิบของคุณตรงกับ lognormal นั่นอาจเป็นเหตุผลที่เพียงพอเช่นกัน

สำหรับข้อสันนิษฐานทางคณิตศาสตร์ที่เข้มงวดเกมคือทฤษฎีความแตกต่างของ KL และข้อมูล ...

อาและการอ้างอิงบางอย่าง:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. เกณฑ์ข้อมูล Akaike, Shuhua Hu, (การนำเสนอหน้า 19-18)
  3. การวิเคราะห์ทางสถิติประยุกต์หลายตัวแปร, Johnson & Wichern, 6th Ed. (หน้า 386-387)
  4. รูปลักษณ์ใหม่ของการระบุแบบจำลองทางสถิติ, H. Akaike, ธุรกรรม IEEE บนการควบคุมอัตโนมัติ 19 (6): 716–723 (1974)
  5. แบบจำลองการเลือกตัวอย่าง # 1: เกณฑ์ข้อมูลของ Akaike, D. Schmidt และ E. Makalic, (การนำเสนอหน้า 33)

ขอบคุณ! ฉันไม่เข้าใจคณิตศาสตร์ แต่ฉันได้รับแก่นแท้ของข้อความ อย่างไรก็ตามคุณสามารถระบุรายการข้อกำหนดเบื้องต้นทั้งหมดที่จำเป็นสำหรับการเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ เพียงเพื่อให้แน่ใจว่าฉันจะไม่ทำผิดพลาดอีกในครั้งต่อไป ฉันจะไปตรวจสอบทีละคน
อยากรู้อยากเห็น

1
ฉันกลัวว่าฉันไม่มี "รายการตรวจสอบ" เช่นนี้ Ref. [2] มีรายการที่ค่อนข้างครอบคลุมหากคุณสนใจ สิ่งสำคัญที่ต้องจดจำคือ: 1. เนื่องจาก AIC เป็นเกณฑ์การเลือกรูปแบบที่มีประสิทธิภาพแบบ asymptotically ที่คุณต้องการมีค่ามากกว่าและ 2 อย่างมากคุณสามารถใช้เพื่อเปรียบเทียบแบบจำลองของข้อมูลที่ขึ้นต่อกันเหมือนกัน คุณต้องการให้มีความแตกต่างเป็นสองเท่าโดยผู้สมัครรุ่นทุกคนจะได้รับการแมปไม่ซ้ำกันและการคาดคะเน ML ของคุณมีความสอดคล้องกัน แต่ฉันคิดว่าสมมติฐานเหล่านี้ กระดาษ ...|D|pL(θ)θp(x|θ)
usεr11852พูดว่า Reinstate Monic

1
ขอบคุณสำหรับการเพิ่มรายการของ 3 ข้อสมมติเหล่านี้ในคำตอบ! นั่นคือสิ่งที่ฉันต้องการ
อยากรู้อยากเห็น

1
มองไปที่คำตอบของคุณอีกครั้ง: จุดของคุณ 1. "คุณไม่สามารถใช้ในการเปรียบเทียบรูปแบบของชุดข้อมูลที่แตกต่างกัน" คุณหมายถึงอะไรโดย "ชุดข้อมูล"? ถ้าฉันเปลี่ยนชุดของตัวแปรตาม ฉันเดาว่าในกรณีนี้ AIC ควรจะยังคงเทียบเคียง? คุณช่วยอัพเดทคำตอบของคุณให้กระจ่างได้มั้ย
อยากรู้อยากเห็น

1
(ขออภัยสำหรับคำตอบที่ล่าช้ามาก !) ฉันคิดว่าคุณต้องการพูดตัวแปรอิสระ ... หากคุณเปลี่ยนตัวแปรตามคุณจะไปยุ่งกับของคุณอีกครั้งเพราะ "รุ่นพอดี" (พูดโดยประมาณ ) ไม่ใช่ เมื่อเทียบกับเดียวกันx(ใช้เวลาของคุณตอบ @Curious ฉันจะไม่คาดหวังอะไรเลยก่อนกลางเดือนกรกฎาคม!: D)RSSμx
us11r11852 พูดว่า Reinstate Monic

11

คุณควรจะสามารถเปรียบเทียบการใช้ AIC ในหลักการเพียงว่าหมายเลขที่เรียกว่า "AIC" ไม่ใช่หมายเลขที่คุณต้องการ คุณกำลังเปรียบเทียบการแจกแจงแบบปกติกับล็อกแบบปกติ ตอนนี้ AIC จากแบบจำลองuu0นั้นหายไปจาก "การเปลี่ยนแปลงของบันทึก" สำหรับการเข้าสู่ระบบปกติรุ่นนี้เป็นเพียง1} การแปลงนี้เพื่อ AIC คุณจะต้องเข้าสู่ระบบครั้งที่สองในเชิงลบของคำนี้ซึ่งหมายความว่าคุณจะต้องเพิ่มจำนวน AIC สำหรับ ดังนั้นคุณควร เปรียบเทียบกับiyi12ilog(yi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


ฉันไม่เข้าใจสิ่งที่คุณทำตามด้วยความพยายามในการ "แก้ไข" AIC อย่างใดและสิ่งที่คุณได้รับจริง (วิธีตีความผลลัพธ์ของคุณ) อย่างไรก็ตามอย่าขุดลงไปในเรื่องนี้มันไม่สำคัญเพราะคำถามของฉันเกี่ยวกับสิ่งที่แตกต่างอย่างสิ้นเชิง: สิ่งที่จำเป็นต้องมีทั่วไปสำหรับ AIC (จริง, ไม่ถูกแก้ไข) เพื่อเปรียบเทียบอย่างสมเหตุสมผล อย่ามุ่งเน้นตัวอย่างเฉพาะนี้เป็นเพียงตัวอย่างของสิ่งทั่วไป
อยากรู้อยากเห็น

1
@curious - จุดของฉันคือว่า "AIC ที่ถูกต้อง" ของฉันคือ AIC จริงและสิ่งที่คุณได้รับจากฟังก์ชัน AIC นั้นผิดเมื่อคุณเปรียบเทียบการแปลงของ "ตัวแปรตาม" จุดคือการเปลี่ยนแปลงภายใต้การแปลง, (สำหรับเช่น, ) คุณต้องคำนึงถึงการเปลี่ยนแปลงนี้เมื่อใช้ AIC ฟังก์ชั่นที่คุณใช้ไม่บัญชีสำหรับการนี้ 2log(p(y|θ))x=g(y)x=log(y)AIC()
ความน่าจะเป็นทาง

@probabilityislogic: คุณมีการอ้างอิงทางวิชาการสำหรับคำแนะนำของคุณ (AIC (uu0) + 2 * sum (log (usili))) เพื่อที่ฉันจะสามารถอ้างอิงพวกเขาในงานเขียนทางวิชาการได้หรือไม่? ขอบคุณ
KuJ

3

นำมาจาก Akaike 1978

ข้อความที่ตัดตอนมาจาก Akaike 1978 นี้มีการอ้างอิงเพื่อสนับสนุนการแก้ปัญหาโดย @probabilityislogic

Akaike, H. 1978. ในความเป็นไปได้ของแบบจำลองอนุกรมเวลา วารสารสมาคมสถิติ ชุด D (นักสถิติ) 27: 217-235


1
ขอโทษฉันไม่เข้าใจ "การเปลี่ยนแปลงของตัวแปร" คืออะไรและเกี่ยวข้องกับคำถามของฉันอย่างไร โปรดอธิบายขอบคุณ
Curious
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.