คะแนน Akaike Information Criterion (AIC) ของแบบจำลองหมายถึงอะไร


34

ฉันได้เห็นคำถามบางอย่างที่นี่เกี่ยวกับความหมายในแง่คนธรรมดา แต่สิ่งเหล่านี้มันธรรมดาเกินไปสำหรับวัตถุประสงค์ของฉันที่นี่ ฉันกำลังพยายามที่จะเข้าใจทางคณิตศาสตร์ว่าคะแนน AIC หมายถึงอะไร

แต่ในเวลาเดียวกันฉันไม่ต้องการหลักฐานที่เข้มงวดซึ่งจะทำให้ฉันไม่เห็นประเด็นที่สำคัญกว่านี้ ตัวอย่างเช่นถ้านี่คือแคลคูลัสฉันจะมีความสุขกับ infinitesimals และถ้านี่เป็นทฤษฎีความน่าจะเป็น

ความพยายามของฉัน

โดยอ่านที่นี่และสัญกรณ์น้ำตาลของฉันเองเป็นเกณฑ์ AIC ของรุ่นบนชุดข้อมูลดังนี้: ที่เป็นจำนวนพารามิเตอร์ของแบบจำลองและเป็นค่าฟังก์ชั่นความน่าจะเป็นสูงสุดของรุ่นบนชุดDAICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

นี่คือความเข้าใจของฉันในสิ่งที่ข้างต้นหมายถึง:

m=arg maxθPr(D|θ)

ทางนี้:

  • kmเป็นจำนวนพารามิเตอร์ของม.m
  • Lm,D=Pr(D|m)=L(m|D)D)

ตอนนี้ลองเขียน AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

เห็นได้ชัดว่าPr(D|m)ความน่าจะเป็นในการสังเกตชุดข้อมูลDภายใต้รูปแบบเมตรmดังนั้นที่ดีกว่ารุ่นmเหมาะกับชุดDที่มีขนาดใหญ่Pr(D|m)จะกลายเป็นและทำให้มีขนาดเล็กลงในระยะ2loge(Pr(D|m))จะกลายเป็น

เห็นได้ชัดว่า AIC ให้รางวัลแบบจำลองที่เหมาะสมกับชุดข้อมูลของพวกเขา (เนื่องจากAICm,Dกว่าจะดีกว่า)

ในทางกลับกันคำว่าลงโทษโมเดลด้วยพารามิเตอร์เพิ่มเติมอย่างชัดเจนโดยการทำให้ใหญ่ขึ้น2kmAICm,D

กล่าวอีกนัยหนึ่ง AIC น่าจะเป็นตัวชี้วัดที่:

  • ให้รางวัลโมเดลที่แม่นยำ (โมเดลที่เหมาะสมกับดีกว่า) เช่นได้รับรางวัลในการออกกำลังกายเพิ่มขึ้นจากที่จะมากกว่าผลตอบแทนที่เพิ่มขึ้นในการออกกำลังกายจากที่จะ0.9ดังแสดงในรูปด้านล่างD0.40.50.80.9
  • การลดรางวัลในพารามิเตอร์เชิงเส้น ดังนั้นการลดลงของค่าพารามิเตอร์จากลงไปได้รับรางวัลมากที่สุดเท่าที่มันรางวัลลดลงจากลงไป19821

ป้อนคำอธิบายรูปภาพที่นี่

ในคำอื่น ๆ (อีกครั้ง), AIC กำหนดการออกระหว่างความสำคัญของความเรียบง่ายและความสำคัญของการออกกำลังกาย

กล่าวอีกนัยหนึ่ง (อีกครั้ง), AIC ดูเหมือนจะแนะนำว่า:

  • ความสำคัญของการออกกำลังกายลดน้อยลง
  • แต่ความสำคัญของความเรียบง่ายไม่เคยลดน้อยลง แต่ค่อนข้างสำคัญตลอดเวลา

คำถามที่ 1:แต่คำถามคือทำไมเราต้องใส่ใจกับความเรียบง่ายของการออกกำลังกายที่เฉพาะเจาะจงนี้?

Q2:ทำไมและทำไม ? ทำไมไม่ใช่แค่: เช่นในมุมมอง y มีประโยชน์เท่า ๆ กันกับและควรจะสามารถให้บริการสำหรับการเปรียบเทียบแบบจำลองที่แตกต่างกัน (มันไม่ได้ถูกปรับขนาดด้วยเราจำเป็นต้องใช้สิ่งนี้หรือไม่)2k2loge()

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

Q3:สิ่งนี้เกี่ยวข้องกับทฤษฎีข้อมูลอย่างไร มีคนได้รับสิ่งนี้จากการเริ่มต้นทางทฤษฎีข้อมูลหรือไม่


2
เครื่องหมายของคุณในหมายถึงอะไร คุณหมายถึงบางสิ่งบางอย่างเกี่ยวกับตัวเลือกรุ่นที่นั่นหรือไม่? สิ่งที่คุณมีข้างต้นไม่ได้หมายความว่า AIC ต้องการให้คุณเลือกแบบจำลอง Q2 อย่างที่คุณพูดเป็นสิ่งที่ค่อนข้างไร้เหตุผลในบางแง่มุม แต่มาจากการทำให้ AIC เป็นค่าประมาณสำหรับการเบี่ยงเบน Kullback-Leibler ซึ่งเกี่ยวข้องกับคำตอบสำหรับ Q1 และให้ความหมายกับปริมาณเช่น2) m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Björn

arg maxθPr(D|θ)หมายถึงให้มองหลาย s จนกว่าคุณจะพบหนึ่งที่ช่วยลดความน่าจะเป็นtheta) แต่ละเป็น tuple / เวกเตอร์ของพารามิเตอร์ที่กำหนดรูปแบบของเราที่พยายามที่จะอธิบายชุดDโดยพื้นฐานแล้วมันบอกว่า: เรามีชุดข้อมูลความน่าจะเป็นที่สร้างโดยแบบจำลองที่กำหนดโดยคืออะไร แบบจำลองของเราคือที่แก้ปัญหาการขยายสูงสุดนี้ θPr(D|θ)θDDθmθ
มนุษย์ถ้ำ

3
ขออภัยคุณกำลังดูหลายรุ่น (เนื่องจากคุณเขียน ) หรือคุณกำลังพูดถึงการประมาณการความน่าจะเป็นสูงสุด ? นอกจากนี้ยังทราบคือน่าจะเป็นของสวรรค์ข้อมูลที่เกิดขึ้นภายใต้รูปแบบที่กำหนดและสำหรับพารามิเตอร์ที่กำหนดไม่น่าจะเป็นข้อมูลที่ถูกสร้างขึ้นโดยรูปแบบที่แปรโดย\m=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Björn

MLE คือสิ่งที่ฉันหมายถึง แต่ฉันแค่พยายามจะบอกว่าพารามิเตอร์ tupleนั้นครอบคลุมมากจนทำให้มันกำหนดรูปแบบได้ นอกจากนี้ผมสามารถมีหลายรูปแบบพูดแต่ละคนมีความแตกต่างกัน AIC คะแนน\ ฉันแค่ทำเครื่องหมายนี้ขึ้นเพราะฉันคิดว่ามันง่ายกว่า ฉันผิดอย่างมหันต์หรือทำให้สับสนนี้โดยไม่จำเป็นหรือไม่? (และขอขอบคุณสำหรับการแก้ไขฉันในสิ่งที่เป็นวิธี MLE)θm1,m2AIC1,AIC2
ถ้ำ

3
AIC มาจากการประมาณค่าการสูญหายของข้อมูล KL ที่คาดการณ์ไว้ใน Pawitan (2001), ในทุกโอกาส , Ch 13
Scortchi - Reinstate Monica

คำตอบ:


13

คำถามนี้โดยมนุษย์ถ้ำเป็นที่นิยม แต่มีไม่มีการพยายามตอบสำหรับเดือนจนกว่าฉันแย้งหนึ่ง อาจเป็นได้ว่าคำตอบที่แท้จริงด้านล่างไม่ใช่ในตัวของมันเองการโต้เถียงเพียง แต่คำถามนั้นเป็นคำถามที่ "โหลด" เพราะสนามดูเหมือนว่า (สำหรับฉันอย่างน้อย) จะมีประชากรโดย AOL และ BIC ซึ่งค่อนข้างจะใช้ OLS กว่าวิธีของกันและกัน โปรดดูสมมติฐานทั้งหมดที่ระบุไว้และข้อ จำกัด ที่วางไว้ในประเภทข้อมูลและวิธีการวิเคราะห์และโปรดแสดงความคิดเห็น แก้ไขปัญหานี้สนับสนุน ป่านนี้คนฉลาดบางคนมีส่วนทำให้ความคืบหน้าช้าจึงถูกสร้างขึ้น ฉันรับทราบการมีส่วนร่วมของ Richard Hardy และ GeoMatt22 คำพูดที่ชัดเจนจาก Antoni Parellada และความพยายามอันกล้าหาญของ Cagdas Ozgenc และ Ben Ogorek เพื่อเชื่อมโยง KL divergence กับความแตกต่างที่แท้จริง

ก่อนที่เราจะเริ่มต้นให้เราทบทวนสิ่งที่เป็นศูนย์กลางและเป็นหนึ่งในแหล่งที่มาสำหรับเรื่องนี้คือข้อกำหนดเบื้องต้นสำหรับการเปรียบเทียบรูปแบบ AICและอื่น ๆ จากร็อบเจ Hyndman โดยเฉพาะ AIC จะถูกคำนวณให้เท่ากับ

2k2log(L(θ)),

โดยที่คือจำนวนพารามิเตอร์ในตัวแบบและฟังก์ชันความน่าจะเป็น AIC เปรียบเทียบการแลกเปลี่ยนระหว่างความแปรปรวน ( ) และอคติ ( ) จากการสร้างแบบจำลองสมมติฐาน จากข้อเท็จจริงและความล้มเหลวของ AICจุดที่ 3 "AIC ไม่ถือว่าส่วนที่เหลือเป็น Gaussian มันเป็นเพียงความเป็นไปได้ของ Gaussian ที่ใช้บ่อยที่สุด แต่ถ้าคุณต้องการใช้การกระจายแบบอื่นให้ไปข้างหน้า" เอไอซีเป็นโอกาสลงโทษแล้วแต่จำนวนใดโอกาสที่คุณเลือกที่จะใช้งาน ยกตัวอย่างเช่นในการแก้ AIC สำหรับ Student's-T เหลือกระจายเราสามารถใช้วิธีการแก้ปัญหาโอกาสสูงสุดสำหรับ Student's-T kL(θ)2k2log(L(θ))บันทึกความน่าจะเป็นที่มักจะนำมาใช้สำหรับ AICมาจากการบันทึกความน่าจะเป็นแบบเกาส์และได้รับจาก

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

Kเป็นโครงสร้างความแปรปรวนร่วมของโมเดลขนาดตัวอย่าง; จำนวนการสังเกตในชุดข้อมูลการตอบสนองเฉลี่ยและตัวแปรตาม โปรดทราบว่าการพูดอย่างเคร่งครัดมันไม่จำเป็นสำหรับ AIC ในการแก้ไขขนาดตัวอย่างเนื่องจาก AIC ไม่ได้ใช้เพื่อเปรียบเทียบชุดข้อมูลเฉพาะรุ่นที่ใช้ชุดข้อมูลเดียวกัน ดังนั้นเราไม่จำเป็นต้องตรวจสอบว่าการแก้ไขขนาดตัวอย่างทำได้อย่างถูกต้องหรือไม่ แต่เราจะต้องกังวลเกี่ยวกับเรื่องนี้หากเราสามารถพูดคุยทั่วไป AIC ให้เป็นประโยชน์ระหว่างชุดข้อมูล ในทำนองเดียวกันมีการสร้างเกี่ยวกับเพื่อประกันประสิทธิภาพของ asymptotic มุมมองแบบมินิมัลลิสต์อาจถือว่า AIC เป็นเพียง "ดัชนี" ซึ่งทำให้|D|μxK>>|D|>2K>|D|มีความเกี่ยวข้องและที่ไม่เกี่ยวข้อง อย่างไรก็ตามได้มีการให้ความสนใจในรูปแบบของการเสนอการเปลี่ยนแปลง AIC สำหรับไม่ใหญ่กว่าเรียกว่า AICดูย่อหน้าที่สองของคำตอบสำหรับ Q2 ด้านล่าง การแพร่กระจายของ "มาตรการ" นี้เป็นการตอกย้ำความคิดที่ว่า AIC เป็นดัชนีเท่านั้น อย่างไรก็ตามขอแนะนำให้ใช้ความระมัดระวังเมื่อใช้คำว่า "i" เนื่องจากผู้ให้การสนับสนุน AIC บางคนถือเอาการใช้คำว่า "ดัชนี" ที่มีความชื่นชอบเช่นเดียวกับที่อาจติดอยู่กับการอ้างถึง ontogeny ว่าเป็นคนนอกโลกK>>|D|K|D|c

คำถามที่ 1: แต่คำถามคือทำไมเราต้องใส่ใจกับความเรียบง่ายของการออกกำลังกายที่เฉพาะเจาะจงนี้?

ตอบเป็นสองส่วน ก่อนคำถามเฉพาะ คุณควรสนใจเพราะนั่นคือวิธีที่มันถูกกำหนดไว้ หากคุณต้องการไม่มีเหตุผลที่จะไม่กำหนด CIC; เกณฑ์ข้อมูลมนุษย์ถ้ำมันจะไม่เป็น AIC แต่ CIC จะให้คำตอบเดียวกับ AIC มันจะไม่ส่งผลกระทบต่อการแลกเปลี่ยนระหว่างความดีงามพอดีและการวางตัวเรียบง่าย ค่าคงที่ใด ๆ ที่สามารถใช้เป็นตัวคูณ AIC รวมถึงหนึ่งครั้งจะต้องได้รับการคัดเลือกและปฏิบัติตามเนื่องจากไม่มีมาตรฐานอ้างอิงเพื่อบังคับใช้มาตราส่วนแบบสัมบูรณ์ อย่างไรก็ตามการยึดมั่นในคำนิยามมาตรฐานไม่ได้มีความหมายว่ามีที่ว่างสำหรับหนึ่งและเพียงหนึ่งคำจำกัดความหรือ "การประชุม" สำหรับปริมาณเช่น AIC ที่กำหนดไว้ในระดับที่สัมพันธ์กันเท่านั้น ดูที่สมมติฐาน AIC # 3 ด้านล่าง

คำตอบที่สองสำหรับคำถามนี้เกี่ยวข้องกับความเฉพาะเจาะจงของการแลกเปลี่ยน AIC ระหว่างความดีงามพอดีและการวางตัวเรียบง่ายโดยไม่คำนึงว่าจะมีการเลือกตัวคูณคงที่อย่างไร นั่นคือสิ่งที่จริงผลกระทบ "การแลกเปลี่ยน"? สิ่งหนึ่งที่มีผลต่อสิ่งนี้คือการปรับระดับความเป็นอิสระของจำนวนพารามิเตอร์ในแบบจำลองสิ่งนี้นำไปสู่การนิยาม AIC "ใหม่" ที่เรียกว่า AICดังนี้:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

โดยที่คือขนาดตัวอย่าง เนื่องจากการให้น้ำหนักตอนนี้แตกต่างกันเล็กน้อยเมื่อเปรียบเทียบแบบจำลองที่มีจำนวนพารามิเตอร์ที่แตกต่างกัน AICเลือกแบบจำลองที่แตกต่างจาก AIC และเหมือนกันกับ AIC เมื่อทั้งสองรุ่นมีความแตกต่างกัน แต่มีจำนวนพารามิเตอร์เท่ากัน วิธีอื่น ๆ จะเลือกแบบจำลองที่แตกต่างกันเช่น "BIC [sic, Bayesian data criterion ] โดยทั่วไปจะลงโทษพารามิเตอร์อิสระที่รุนแรงกว่าเกณฑ์ข้อมูล Akaike ถึงแม้ว่ามันจะขึ้นอยู่กับ ... " ANOVA ก็จะลงโทษพารามิเตอร์ที่เกินความเป็นไปได้ ความจำเป็นของค่าพารามิเตอร์แตกต่างกันและในบางสถานการณ์จะดีกว่าการใช้ AICnc. โดยทั่วไปวิธีการประเมินความเหมาะสมของแบบจำลองจะมีข้อดีและข้อเสีย คำแนะนำของฉันคือการทดสอบประสิทธิภาพของวิธีการเลือกแบบจำลองใด ๆ สำหรับการประยุกต์ใช้กับวิธีการถดถอยข้อมูลอย่างจริงจังมากกว่าการทดสอบตัวแบบจำลองเอง เหตุผลใดที่จะสงสัย? ใช่ควรระมัดระวังเมื่อสร้างหรือเลือกการทดสอบแบบจำลองใด ๆ เพื่อเลือกวิธีการที่เหมาะสมตามระเบียบวิธี AIC มีประโยชน์สำหรับชุดย่อยของการประเมินแบบจำลองเพื่อดูไตรมาสที่ 3 ต่อไป ตัวอย่างเช่นการดึงข้อมูลด้วยโมเดล A อาจทำได้ดีที่สุดด้วยวิธีการถดถอย 1 และสำหรับโมเดล B ด้วยวิธีการถดถอย 2 ซึ่งบางครั้งโมเดล B และวิธีที่ 2 ให้ผลลัพธ์ที่ไม่ใช่คำตอบทางกายภาพและที่ไม่มีวิธีการถดถอยคือ MLR

Q3 สิ่งนี้เกี่ยวข้องกับทฤษฎีข้อมูลอย่างไร :

สมมติฐาน MLR # 1 AIC ได้รับการบอกกล่าวตามข้อสันนิษฐานของการประยุกต์ใช้ความน่าจะเป็นสูงสุด (MLR) กับปัญหาการถดถอย มีเพียงสถานการณ์เดียวที่การถดถอยกำลังสองน้อยที่สุดธรรมดาและความน่าจะเป็นการถดถอยสูงสุดได้ชี้ให้ฉันเห็นว่าเหมือนกัน นั่นก็คือเมื่อส่วนที่เหลือจากการถดถอยเชิงเส้นน้อยที่สุดธรรมดา (OLS) มีการกระจายตัวตามปกติและ MLR มีฟังก์ชันการสูญเสียแบบเกาส์ ในกรณีอื่น ๆ ของการถดถอยเชิงเส้น OLS สำหรับการถดถอย OLS แบบไม่เชิงเส้นและฟังก์ชั่นการสูญเสียที่ไม่ใช่แบบเกาส์ MLR และ OLS อาจแตกต่างกัน มีเป้าหมายการถดถอยอื่น ๆ อีกมากมายนอกเหนือจาก OLS หรือ MLR หรือแม้กระทั่งความดีที่เหมาะสมและบ่อยครั้งที่คำตอบที่ดีก็มีส่วนเกี่ยวข้องเช่นกันสำหรับปัญหาผกผันส่วนใหญ่. ความพยายามที่มีการอ้างถึงสูง (เช่น 1100 ครั้ง) ที่จะใช้คุย AIC สำหรับกึ่งโอกาสเพื่อให้การพึ่งพาการถดถอยโอกาสสูงสุดที่ผ่อนคลายมากขึ้นที่จะยอมรับฟังก์ชั่นการสูญเสียทั่วไป นอกจากนี้อัตราดอกเบี้ย MLR-T Student's แม้จะไม่ได้อยู่ในรูปแบบปิดเป็นมาบรรจบกันอย่างทนทาน เนื่องจากการแจกแจงแบบเศษซากของนักเรียนมีทั้งแบบทั่วไปและแบบทั่วไปมากกว่ารวมถึงเงื่อนไขแบบเกาส์ฉันจึงไม่เห็นเหตุผลพิเศษที่จะใช้สมมติฐานแบบเกาส์สำหรับ AIC

สมมติฐาน MLR # 2 MLR คือความพยายามในการหาปริมาณของความพอดี บางครั้งมันถูกนำไปใช้เมื่อไม่เหมาะสม ตัวอย่างเช่นสำหรับข้อมูลช่วงที่ถูกตัดทอนเมื่อรุ่นที่ใช้ไม่ได้ถูกตัดแต่ง Goodness-of-fit นั้นดีและดีถ้าเรามีข้อมูลที่ครอบคลุมครบถ้วน ในอนุกรมเวลาเรามักไม่มีข้อมูลเร็วพอที่จะเข้าใจอย่างเต็มที่ว่าเหตุการณ์ทางกายภาพเกิดขึ้นในตอนแรกหรือแบบจำลองของเราอาจไม่สมบูรณ์เพียงพอที่จะตรวจสอบข้อมูลที่เร็วมาก ปัญหาที่น่ากังวลยิ่งกว่าคือการที่มักจะไม่สามารถทดสอบความดีงามที่เหมาะสมในเวลาที่ผ่านมาเนื่องจากขาดข้อมูล ดังนั้นความดีของความพอดีอาจเป็นเพียงการสร้างแบบจำลอง 30% ของพื้นที่ที่เหมาะสมภายใต้เส้นโค้งและในกรณีนี้เรากำลังตัดสินรูปแบบการประมาณโดยใช้ข้อมูลที่เป็นและเราไม่ได้ตรวจสอบสิ่งที่หมายถึง เพื่อคาดการณ์ เราต้องดูไม่เพียง แต่ความดีของพอดี 'จำนวน' แต่ยังรวมถึงอนุพันธ์ของจำนวนที่ล้มเหลวซึ่งเราไม่มี "ความดี" ของการคาดการณ์ ดังนั้นเทคนิคพอดีเช่น B-splines ค้นหาการใช้งานเพราะพวกเขาสามารถทำนายได้อย่างราบรื่นมากขึ้นว่าข้อมูลคืออะไรเมื่ออนุพันธ์นั้นเหมาะสมหรือวิธีการแก้ปัญหากลับกันเช่นการรักษาแบบอินทิกรัลแบบไม่ดีตลอดช่วงโมเดลทั้งหมด กู

ข้อกังวลที่ซับซ้อนอีกประการหนึ่งคือข้อมูลสามารถบอกเราได้ว่าเราควรทำอะไรกับมัน สิ่งที่เราต้องการสำหรับความดี - พอดี (เมื่อเหมาะสม) คือการมีส่วนที่เหลืออยู่ในระยะทางในแง่ที่ว่าค่าเบี่ยงเบนมาตรฐานคือระยะทาง นั่นคือความดีของความพอดีจะไม่สมเหตุสมผลหากส่วนที่เหลือซึ่งมีค่าเป็นสองเท่าตราบใดที่ค่าเบี่ยงเบนมาตรฐานเดียวก็ไม่ได้มีความยาวส่วนเบี่ยงเบนมาตรฐานสองเท่า การเลือกการแปลงข้อมูลควรถูกตรวจสอบก่อนที่จะใช้วิธีการเลือก / การถดถอยแบบจำลองใด ๆ หากข้อมูลมีข้อผิดพลาดประเภทตามสัดส่วนโดยทั่วไปแล้วการลอการิทึมก่อนที่จะเลือกการถดถอยนั้นไม่เหมาะสมเนื่องจากจะแปลงค่าเบี่ยงเบนมาตรฐานเป็นระยะทาง อีกวิธีหนึ่งเราสามารถปรับเปลี่ยนบรรทัดฐานเพื่อลดขนาดให้พอดีกับข้อมูลสัดส่วนที่เหมาะสม เช่นเดียวกับโครงสร้างข้อผิดพลาดของปัวซอง เราสามารถใช้สแควร์รูทของข้อมูลเพื่อทำให้ข้อผิดพลาดเป็นปกติหรือแก้ไขบรรทัดฐานของเราสำหรับการปรับ มีปัญหาที่ซับซ้อนกว่าหรือยากมากหากเราไม่สามารถเปลี่ยนบรรทัดฐานสำหรับการปรับตัวอย่างเช่นปัวซงนับสถิติจากการสลายตัวของนิวเคลียร์เมื่อการสลายกัมมันตภาพรังสีทำให้เกิดความสัมพันธ์เชิงเวลาขึ้นระหว่างข้อมูลการนับและมวลจริงที่จะมี การแพร่กระจายของสิ่งมีชีวิตเหล่านั้นไม่มีการเสื่อมสลาย ทำไม? หากเราสลายอัตราการนับที่ถูกต้องกลับไปเราจะไม่มีสถิติปัวซองและส่วนที่เหลือ (หรือข้อผิดพลาด) จากรากที่สองของการนับที่แก้ไขแล้วจะไม่มีระยะทางอีกต่อไป ถ้าหากเราต้องการทำการทดสอบข้อมูลที่ถูกต้องของการสลายตัว (เช่น AIC) เราจะต้องทำในลักษณะที่ไม่รู้จักตนเองที่ถ่อมตนของฉัน เปิดคำถามกับผู้อ่านหากเรายืนยันในการใช้ MLR เราสามารถเปลี่ยนบรรทัดฐานของมันเพื่อบัญชีสำหรับประเภทข้อผิดพลาดของข้อมูล (ที่ต้องการ) หรือเราจะต้องแปลงข้อมูลเพื่ออนุญาตให้ใช้ MLR (ไม่เป็นประโยชน์) หรือไม่? หมายเหตุ AIC ไม่ได้เปรียบเทียบวิธีการถดถอยสำหรับแบบจำลองเดียว แต่จะเปรียบเทียบแบบจำลองต่างๆสำหรับวิธีการถดถอยแบบเดียวกัน

สมมติฐาน AIC # 1 ก็ดูเหมือนว่า MLR ไม่ได้ จำกัด อยู่ที่เหลือปกติตัวอย่างเช่นดูคำถามเกี่ยวกับอัตราดอกเบี้ย MLR และ Student's-T ต่อไปให้เราสมมติว่า MLR เหมาะสมกับปัญหาของเราเพื่อให้เราติดตามการใช้งานเพื่อเปรียบเทียบค่า AIC ในทางทฤษฎี ต่อไปเราคิดว่ามี 1) ข้อมูลที่สมบูรณ์ 2) ชนิดเดียวกันของการกระจายของเศษ (เช่นปกติทั้ง Student's- ที ) อย่างน้อย 2 รุ่น นั่นคือเรามีอุบัติเหตุที่สองรุ่นควรมีประเภทการกระจายของสารตกค้าง เกิดขึ้นได้ไหม? ใช่อาจ แต่ไม่แน่นอนเสมอไป

สมมติฐาน AIC # 2 AIC เกี่ยวข้องกับลอการิทึมลบของปริมาณ (จำนวนพารามิเตอร์ในรูปแบบหารด้วย Kullback-Leibler divergence ) สมมติฐานนี้จำเป็นหรือไม่? ในฟังก์ชั่นการสูญเสียทั่วไปกระดาษจะใช้ "ความแตกต่าง" ที่แตกต่างกัน สิ่งนี้ทำให้เราถามว่ามาตรการอื่น ๆ นั้นกว้างกว่า KL divergence ทำไมเราถึงไม่ใช้มันสำหรับ AIC ด้วย?

ข้อมูลที่ไม่ตรงกันสำหรับ AIC จากKullback-Leibler divergenceคือ "แม้ว่า ... มักใช้วิธีวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็น เราจะเห็นว่าทำไมในไม่ช้า

อาร์กิวเมนต์ KL มาถึงจุดที่ความแตกต่างระหว่างสองสิ่งที่แบบจำลอง (P) และ data (Q) คือ

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

ซึ่งเรารับรู้ว่าเป็นเอนโทรปีของ '' P '' เทียบกับ '' Q ''

สมมติฐาน AIC # 3 สูตรส่วนใหญ่เกี่ยวข้องกับ Kullback – Leibler divergence โดยไม่คำนึงถึงฐานของลอการิทึม ตัวคูณคงที่อาจมีความหมายมากกว่านี้หาก AIC เกี่ยวข้องกับชุดข้อมูลมากกว่าหนึ่งชุดในเวลาเดียวกัน ขณะที่มันยืนเมื่อเปรียบเทียบกับวิธีการถ้าแล้วใดจำนวนบวกที่จะยังคงเป็น<เนื่องจากมันเป็นกฎเกณฑ์การตั้งค่าคงที่เป็นค่าเฉพาะเป็นเรื่องของคำนิยามจึงไม่เหมาะสมAICdata,model1<AICdata,model2<

สมมติฐาน AIC # 4 นั่นก็คือการที่ AIC ทำการวัดข้อมูลเอนโทรปีหรือข้อมูลตนเองของแชนนอน"สิ่งที่เราต้องรู้คือ" เอนโทรปีคือสิ่งที่เราต้องการสำหรับการวัดข้อมูลหรือไม่ "

เพื่อทำความเข้าใจว่า "ข้อมูลตัวเอง" คืออะไรมันทำให้เราต้องทำให้ข้อมูลเป็นมาตรฐานในบริบททางกายภาพใครก็ตามที่จะทำ ใช่ฉันต้องการการวัดข้อมูลเพื่อให้มีคุณสมบัติที่เป็นแบบฟิสิคัล ดังนั้นสิ่งที่จะดูเหมือนในบริบททั่วไปมากขึ้น?

สมการพลังงานกิ๊บส์ฟรี (ΔG=ΔHTΔS) เกี่ยวข้องกับการเปลี่ยนแปลงพลังงานกับการเปลี่ยนแปลงในเอนทาลปีลบด้วยอุณหภูมิสัมบูรณ์เท่าการเปลี่ยนแปลงของเอนโทรปี อุณหภูมิเป็นตัวอย่างของเนื้อหาข้อมูลที่ได้รับการปรับมาตรฐานให้ประสบความสำเร็จเพราะหากมีการวางอิฐร้อนและเย็นหนึ่งก้อนในการสัมผัสซึ่งกันและกันในสภาพแวดล้อมที่ปิดด้วยความร้อนความร้อนจะไหลระหว่างกัน ทีนี้ถ้าเรากระโดดโดยไม่คิดหนักเกินไปเราจะบอกว่าความร้อนเป็นข้อมูล แต่มันคือข้อมูลเชิงสัมพัทธ์ที่ทำนายพฤติกรรมของระบบ ข้อมูลไหลจนกว่าจะถึงจุดสมดุล แต่ความสมดุลของอะไร อุณหภูมินั่นคือสิ่งที่ไม่ร้อนเหมือนในอนุภาคความเร็วของอนุภาคบางอย่างฉันไม่ได้พูดถึงอุณหภูมิโมเลกุลฉันกำลังพูดถึงอุณหภูมิรวมของสองก้อนซึ่งอาจมีมวลแตกต่างกันทำจากวัสดุต่าง ๆ มีความหนาแน่นต่างกันเป็นต้น และไม่มีสิ่งใดที่ฉันต้องรู้ทั้งหมดที่ฉันต้องรู้ก็คืออุณหภูมิรวมเป็นสิ่งที่ปรับสมดุล ดังนั้นหากอิฐหนึ่งก้อนร้อนจัดแสดงว่ามีเนื้อหาข้อมูลสัมพันธ์มากกว่าและเมื่อเย็นกว่า

ทีนี้ถ้าฉันบอกว่าอิฐก้อนหนึ่งมีเอนโทรปีมากกว่าอีกก้อนแล้วทำไมล่ะ? โดยตัวมันเองจะไม่ทำนายว่ามันจะได้รับหรือสูญเสียเอนโทรปีเมื่อสัมผัสกับอิฐก้อนอื่น ดังนั้นเอนโทรปีคือการวัดข้อมูลที่เป็นประโยชน์หรือไม่? ใช่ แต่ถ้าเรากำลังเปรียบเทียบอิฐก้อนเดียวกันกับตัวเองดังนั้นคำว่า "ข้อมูลตัวเอง"

จากข้อ จำกัด สุดท้ายที่มา: ในการใช้ KL divergence อิฐทั้งหมดจะต้องเหมือนกัน ดังนั้นสิ่งที่ทำให้ AIC เป็นดัชนีที่ผิดปกติคือมันไม่สามารถเคลื่อนย้ายได้ระหว่างชุดข้อมูล (เช่นก้อนอิฐที่แตกต่างกัน) ซึ่งไม่ใช่คุณสมบัติที่ต้องการโดยเฉพาะที่อาจได้รับการแก้ไขด้วยการทำให้เนื้อหาเป็นปกติ KL แตกต่างกันเป็นเส้นตรงหรือไม่ อาจจะใช่อาจจะไม่ อย่างไรก็ตามนั่นไม่สำคัญเราไม่จำเป็นต้องถือว่าเป็นเส้นตรงเพื่อใช้ AIC และตัวอย่างเช่นเอนโทรปีตัวเองฉันไม่คิดว่าเกี่ยวข้องกับอุณหภูมิ กล่าวอีกนัยหนึ่งเราไม่จำเป็นต้องใช้ตัวชี้วัดเชิงเส้นเพื่อใช้การคำนวณแบบเอนโทรปี

แหล่งข้อมูลที่ดีเกี่ยวกับ AIC อยู่ในวิทยานิพนธ์นี้ ในแง่ร้ายสิ่งนี้บอกว่า "ในตัวของมันเองค่าของ AIC สำหรับชุดข้อมูลที่กำหนดไม่มีความหมาย" ในแง่ดีสิ่งนี้กล่าวว่าโมเดลที่มีผลลัพธ์ใกล้เคียงสามารถสร้างความแตกต่างได้โดยการปรับให้เรียบเพื่อสร้างช่วงความมั่นใจและอื่น ๆ อีกมากมาย


1
คุณช่วยบอกถึงความแตกต่างที่สำคัญระหว่างคำตอบใหม่กับคำตอบเก่าที่ถูกลบได้ไหม? ดูเหมือนจะทับซ้อนกันบ้าง
Richard Hardy

2
ฉันอยู่ในระหว่างการแก้ไขคำตอบของฉันเป็นเวลาหลายชั่วโมงเมื่อมันถูกลบ มีการเปลี่ยนแปลงมากมายเมื่อเทียบกับตอนที่ฉันเริ่มงานเนื่องจากอยู่ระหว่างดำเนินการอ่านและคิดมากและเพื่อนร่วมงานของฉันในเว็บไซต์นี้ดูเหมือนจะไม่สนใจ แต่ก็ไม่ได้ช่วยตอบอะไรเลย AIC ดูเหมือนว่าดีเกินไปสำหรับการวิจารณ์ที่สำคัญฉันจะกล้าได้อย่างไร ฉันแก้ไขเสร็จแล้วและโพสต์ใหม่ ฉันต้องการที่จะรู้ว่าสิ่งที่ไม่ถูกต้องเกี่ยวกับคำตอบของฉัน ฉันทำงานอย่างหนักกับมันและพยายามที่จะซื่อสัตย์และไม่มีใครใส่ใจ
Carl

4
อย่าอารมณ์เสีย ประสบการณ์ครั้งแรกของฉันที่นี่ก็น่าผิดหวังเช่นกัน แต่หลังจากนั้นฉันเรียนรู้ที่จะถามคำถามในวิธีที่เหมาะสม การรักษาน้ำเสียงที่เป็นกลางและหลีกเลี่ยงความคิดเห็นที่แข็งแกร่งซึ่งไม่ได้อยู่บนพื้นฐานของข้อเท็จจริงที่ยากจะเป็นขั้นตอนแรกที่ดี IMHO (ฉันได้ upvoted คำถามของคุณโดยวิธีการ แต่ยังคงลังเลที่เกี่ยวกับคำตอบ.)
ริชาร์ดฮาร์ดี

3
+1 เพียงเพื่อคำนำของคุณ ตอนนี้ฉันจะอ่านคำตอบต่อไป
Antoni Parellada

2
@ AntoniParellada คุณได้ช่วยเพียงแค่รักษาคำถามจากการถูกลบซึ่งฉันขอบคุณ การทำงานผ่าน AIC นั้นยากและฉันต้องการความช่วยเหลือ แน่ใจว่าความเข้าใจของฉันบางอย่างดี แต่ฉันก็ยังมีอาการของโรคกีบในช่องปากซึ่งจิตใจอื่น ๆ จะดีกว่าในการจับได้ดีกว่าฉัน
Carl

5

AICเป็นค่าประมาณของสองแบบขับเคลื่อนระยะสารเติมแต่งที่คาดว่าจะ Kullback-Leibler แตกต่างระหว่างการกระจายความจริงและใกล้เคียงกับพารารุ่นกรัมfg

KL divergenceเป็นหัวข้อในทฤษฎีข้อมูลและทำงานได้อย่างสังหรณ์ใจ (แม้ว่าจะไม่จริงจัง) เป็นการวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็นสองแบบ ในคำอธิบายของฉันด้านล่างฉันกำลังอ้างอิงสไลด์เหล่านี้จาก Shuhua Hu คำตอบนี้ยังต้องการการอ้างอิงสำหรับ "ผลลัพธ์หลัก"

KL แตกต่างระหว่างโมเดลจริงและโมเดลประมาณคือ fgθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(gθ(x))dx

เนื่องจากความจริงก็คือไม่ทราบข้อมูลถูกสร้างขึ้นจากและอัตราผลตอบแทนประมาณค่าความน่าจะเป็นสูงสุดประมาณการ(y) การแทนที่ด้วยในสมการข้างต้นหมายความว่าทั้งสองคำในสูตร divergence KL รวมถึง KL divergence นั้นเป็นตัวแปรสุ่มในขณะนี้ "ผลลัพธ์ที่สำคัญ" ในสไลด์คือค่าเฉลี่ยของคำเติมที่สองที่เกี่ยวกับสามารถประมาณได้โดยฟังก์ชันอย่างง่ายของฟังก์ชันความน่าจะเป็น (ประเมินที่ MLE) และ , มิติของ : yfθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC ถูกกำหนดให้เป็นสองเท่าของความคาดหวังดังกล่าวข้างต้น (HT @Carl) และขนาดเล็ก (เพิ่มเติมลบ) ค่าสอดคล้องกับประมาณการที่มีขนาดเล็กแตกต่าง KL ระหว่างการกระจายความจริงและรูปแบบการกระจาย(y)}fgθ^(y)


ดังที่คุณทราบความเบี่ยงเบนของคำศัพท์เมื่อนำไปใช้กับการบันทึกความน่าจะเป็นคือศัพท์แสงและไม่แน่นอน ฉันไม่ได้พูดคุยเรื่องนี้เพราะต้องการเพียงความน่าเบื่อแบบเดียวสำหรับความแตกต่างของ AIC ที่จะมีค่าเปรียบเทียบไม่ใช่เชิงเส้น ดังนั้นฉันจึงล้มเหลวในการเห็นความเกี่ยวข้องของการพยายามอย่างหนักเพื่อ "มองเห็น" สิ่งที่น่าจะไม่ได้อยู่ที่นั่นและไม่จำเป็นต่อไป
Carl

2
ฉันเห็นประเด็นของคุณที่ย่อหน้าสุดท้ายเพิ่มปลาเฮอริ่งแดงและฉันรู้ว่าไม่มีใครจำเป็นต้องเชื่อว่า 2 * x อยู่ในอันดับเดียวกันกับ x หากมีความยุติธรรมที่จะบอกว่าปริมาณถูกคูณด้วย 2 "โดยการประชุม"
Ben Ogorek

2
อะไรแบบนั้น. โดยส่วนตัวแล้วฉันจะลงคะแนนให้กับ "หมายถึง" เพราะมันได้รับเลือกในตอนแรก หรือเพื่อให้สิ่งนี้อยู่ในมุมมองทางโลกค่าคงที่ใด ๆ ที่สามารถใช้ได้รวมถึงหนึ่งครั้งจะต้องได้รับการคัดเลือกและปฏิบัติตามเนื่องจากไม่มีมาตรฐานอ้างอิงในการบังคับใช้มาตราส่วน
Carl

4

มุมมองอย่างง่ายสำหรับคำถามสองข้อแรกของคุณคือ AIC นั้นเกี่ยวข้องกับอัตราความผิดพลาดนอกตัวอย่างที่คาดว่าจะได้จากโมเดลโอกาสสูงสุด เกณฑ์ AIC ขึ้นอยู่กับความสัมพันธ์ (องค์ประกอบของสมการการเรียนรู้ทางสถิติ 7.27) ที่ต่อไปนี้สัญกรณ์ของคุณคือจำนวนของพารามิเตอร์ในโมเดลซึ่งมีค่าความน่าจะเป็นสูงสุดคือD}

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

คำทางด้านซ้ายคืออัตรา "ข้อผิดพลาด" ตัวอย่างนอกที่คาดการณ์ไว้ของแบบจำลองความน่าจะเป็นสูงสุดโดยใช้บันทึกความน่าจะเป็นตัวชี้วัดข้อผิดพลาด ปัจจัย -2 คือการแก้ไขแบบดั้งเดิมที่ใช้ในการสร้างความเบี่ยงเบน (มีประโยชน์เพราะในบางสถานการณ์มันเป็นไปตามการกระจายไคสแควร์)m={θ}

มือขวาประกอบด้วยอัตรา "ข้อผิดพลาด" ในตัวอย่างที่ประเมินจากการบันทึกความน่าจะเป็นที่ขยายใหญ่สุดรวมถึงการแก้ไขคำเพื่อการมองโลกในแง่ดีของการเพิ่มความน่าจะเป็นบันทึกซึ่งมีอิสระในการทำให้ข้อมูลค่อนข้างมาก2km/N

ดังนั้น AIC คือการประมาณการของออกจากตัวอย่าง "ความผิดพลาด" อัตรา (อันซ์) ครั้งNN

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.