คุณไม่สามารถเปรียบเทียบรุ่นทั้งสองได้เนื่องจากพวกเขาไม่ได้จำลองตัวแปรเดียวกัน อย่างไรก็ตาม AIC ควรทำงานเมื่อเปรียบเทียบทั้งแบบซ้อนและแบบไม่ซ้อนกัน
เพียงเตือนความจำก่อนที่เราจะดำเนินการต่อไป: บันทึกความเป็นไปได้ของ Gaussian
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
Kเป็นโครงสร้างความแปรปรวนร่วมของโมเดลของคุณจำนวนคะแนนในชุดข้อมูลของคุณการตอบสนองเฉลี่ยและตัวแปรตามของคุณ|D|μx
โดยเฉพาะอย่างยิ่ง AIC จะถูกคำนวณให้เท่ากับโดยที่คือจำนวนเอฟเฟกต์คงที่ในโมเดลของคุณและฟังก์ชันโอกาสของคุณ [1] มันเปรียบเทียบการแลกเปลี่ยนระหว่างความแปรปรวน ( ) และอคติ ( ) ในสมมติฐานการสร้างแบบจำลองของคุณ เช่นในกรณีของคุณมันจะเปรียบเทียบโครงสร้างบันทึกความน่าจะเป็นสองแบบที่แตกต่างกันเมื่อมันมาถึงคำอคติ นั่นเป็นเพราะเมื่อคุณคำนวณความน่าจะเป็นในการบันทึกของคุณคุณจะมองดูสองคำศัพท์: คำที่เหมาะสม, แสดงโดยและเงื่อนไขการลงโทษที่ซับซ้อนแสดงโดย2k−2log(L)kL2k2log(L)−12(x−μ)TK−1(x−μ)−12log(|K|). ดังนั้นคุณจะเห็นว่าคำศัพท์ที่เหมาะสมของคุณนั้นแตกต่างกันอย่างสิ้นเชิงระหว่างสองรุ่น ในกรณีแรกคุณเปรียบเทียบส่วนที่เหลือจากข้อมูลดิบและในกรณีอื่น ๆ ส่วนที่เหลือของข้อมูลที่บันทึกไว้
นอกเหนือจาก Wikipedia แล้ว AIC ยังกำหนดให้เท่าเทียมกัน: [3]; รูปแบบนี้ทำให้ชัดเจนยิ่งขึ้นว่าทำไมรุ่นที่แตกต่างกับตัวแปรตามที่แตกต่างกันจึงไม่สามารถเปรียบเทียบกันได้ RSS เป็นสองกรณีที่ไม่มีใครเทียบได้ระหว่างทั้งสอง|D|log(RSS|D|)+2k
กระดาษดั้งเดิมของ Akaike [4] จริง ๆ แล้วค่อนข้างยากที่จะเข้าใจ (ฉันคิดว่า) มันขึ้นอยู่กับความแตกต่างของ KL (ความแตกต่างระหว่างการแจกแจงสองคำโดยประมาณ) และดำเนินการเพื่อพิสูจน์ว่าคุณสามารถประมาณการกระจายที่แท้จริงที่ไม่รู้จักของข้อมูลของคุณและเปรียบเทียบกับการกระจายของข้อมูลที่โมเดลของคุณถือว่า นั่นเป็นเหตุผลที่"คะแนน AIC ที่เล็กกว่าดีกว่า" ; คุณอยู่ใกล้กับการกระจายที่แท้จริงของข้อมูลของคุณโดยประมาณ
ดังนั้นเมื่อนำ AIC มารวมกันสิ่งที่ชัดเจนที่ควรจดจำเมื่อใช้ร่วมกันคือสาม [2,5]:
คุณไม่สามารถใช้มันเพื่อเปรียบเทียบแบบจำลองของชุดข้อมูลที่แตกต่างกัน
คุณควรใช้ตัวแปรตอบกลับที่เหมือนกันสำหรับโมเดลตัวเลือกทั้งหมด
คุณควรมีเพราะมิฉะนั้นคุณจะไม่ได้รับความมั่นคงเชิงซีมโทติคที่ดี|D|>>k
ขออภัยที่จะทำลายข่าวร้ายแก่คุณ แต่การใช้ AIC เพื่อแสดงว่าคุณกำลังเลือกตัวแปรตามหนึ่งตัวเหนืออีกตัวหนึ่งไม่ใช่สิ่งที่ควรทำในเชิงสถิติ ตรวจสอบการกระจายตัวของส่วนที่เหลือของคุณในทั้งสองรุ่นถ้ากรณีข้อมูลที่บันทึกไว้มีการแจกแจงส่วนที่เหลือตามปกติและกรณีข้อมูลดิบไม่คุณมีเหตุผลทั้งหมดที่คุณอาจต้องการ คุณอาจต้องการตรวจสอบว่าข้อมูลดิบของคุณตรงกับ lognormal นั่นอาจเป็นเหตุผลที่เพียงพอเช่นกัน
สำหรับข้อสันนิษฐานทางคณิตศาสตร์ที่เข้มงวดเกมคือทฤษฎีความแตกต่างของ KL และข้อมูล ...
อาและการอ้างอิงบางอย่าง:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- เกณฑ์ข้อมูล Akaike, Shuhua Hu, (การนำเสนอหน้า 19-18)
- การวิเคราะห์ทางสถิติประยุกต์หลายตัวแปร, Johnson & Wichern, 6th Ed. (หน้า 386-387)
- รูปลักษณ์ใหม่ของการระบุแบบจำลองทางสถิติ, H. Akaike, ธุรกรรม IEEE บนการควบคุมอัตโนมัติ 19 (6): 716–723 (1974)
- แบบจำลองการเลือกตัวอย่าง # 1: เกณฑ์ข้อมูลของ Akaike, D. Schmidt และ E. Makalic, (การนำเสนอหน้า 33)