เมื่อใดจึงเหมาะสมที่จะเลือกรุ่นโดยการลด AIC


12

เป็นที่ยอมรับกันอย่างน้อยในหมู่นักสถิติที่มีความสามารถสูงกว่านั้นแบบจำลองที่มีค่าของสถิติ AIC ภายในขีด จำกัด ที่แน่นอนของค่าต่ำสุดควรได้รับการพิจารณาตามความเหมาะสมเช่นเดียวกับแบบจำลองที่ลดสถิติ AIC ตัวอย่างเช่นใน [1, p.221] เราพบ

จากนั้นแบบจำลองที่มี GCV ขนาดเล็กหรือ AIC ก็ถือว่าดีที่สุด แน่นอนว่าไม่ควรลด GCV หรือ AIC เพียงเล็กน้อย ค่อนข้างทุกรุ่นที่มีค่า GCV หรือ AIC ขนาดเล็กพอสมควรควรพิจารณาว่าเหมาะสมและประเมินตามความเรียบง่ายและความเกี่ยวข้องทางวิทยาศาสตร์

ในทำนองเดียวกันใน [2, p.144] เรามี

มันได้รับการแนะนำ (Duong, 1984) ว่ารูปแบบที่มีค่า AIC ภายใน c ของค่าต่ำสุดควรได้รับการพิจารณาการแข่งขัน (กับ c = 2 เป็นค่าทั่วไป) การคัดเลือกจากแบบจำลองการแข่งขันนั้นจะขึ้นอยู่กับปัจจัยต่าง ๆ เช่นความขาวของสารตกค้าง (ส่วนที่ 5.3) และความเรียบง่ายของแบบจำลอง

อ้างอิง:

  1. รัพเพอร์, D. ; Wand, MP & Carrol, RJ Semiparametric Regression , สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2003
  2. Brockwell, PJ & Davis, RA ความรู้เบื้องต้นเกี่ยวกับอนุกรมเวลาและการพยากรณ์ John Wiley & Sons, 1996

ดังนั้นในข้างต้นควรเลือกรุ่นใดในสองรุ่นด้านล่าง

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

โดยทั่วไปแล้วเมื่อใดควรเลือกรุ่นต่างๆด้วยการย่อขนาด AIC หรือสถิติที่เกี่ยวข้องให้เล็กที่สุด?


คุณยังไม่ได้ให้ AIC สำหรับรุ่นใดรุ่นหนึ่ง
Peter Flom

ฉันได้แสดงวิธีการรับมันกับอาร์
จำศีล

1
ปัญหา +1 ในรุ่น ARIMA ที่ระบุไว้ด้านล่าง แต่เป็นอย่างอื่น: "การทำให้แบบจำลองการพยากรณ์โรคง่ายขึ้น: การศึกษาแบบจำลองบนพื้นฐานของข้อมูลทางคลินิก" Ambler 2002 เป็นข้อมูลอ้างอิงที่ยกมามากที่สุดในเรื่องนี้
charles

คำตอบ:


4

ถอดความจากคอสมาชาลิซีีของเอกสารประกอบการบรรยายเกี่ยวกับความจริงเกี่ยวกับการถดถอยเชิงเส้น , เจ้าจะไม่เลือกรุ่นเพียงเพราะมันเกิดขึ้นเพื่อลดสถิติเช่น AICสำหรับ

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
ดังชาวยิวที่มีชื่อเสียงคนหนึ่งพูดว่า: "จินตนาการดีกว่าความรู้" :)
ไฮเบอร์เนต

และในฐานะที่เป็นหนึ่งที่ไม่ใช่คนยิวที่มีชื่อเสียงกล่าวว่า "คุณสามารถดูได้มากโดยดู" (Yogi Berra)
Peter Flom

และสิ่งที่เราเห็นแน่นอนขึ้นอยู่กับสิ่งที่เรามองหาเป็นหลัก - John Lubbock
Hibernating

12

ฉันจะบอกว่ามันมักจะเหมาะสมที่จะใช้ AIC ในการเลือกรูปแบบ แต่ไม่ค่อยสิทธิที่จะใช้เป็นพื้นฐานเพียงอย่างเดียวสำหรับการเลือกรูปแบบ เราต้องใช้ความรู้ที่สำคัญ

ในกรณีเฉพาะของคุณคุณกำลังเปรียบเทียบโมเดลกับ AR ลำดับที่ 3 กับอีกหนึ่งกับ AR ลำดับที่ 1 นอกเหนือจาก AIC (หรือบางอย่างที่คล้ายกัน) ฉันจะดูที่ autocorrelation และ autocorrelation ฉันยังจะพิจารณาว่ารูปแบบการสั่งซื้อ 3 จะหมายถึง มันสมเหตุสมผลหรือไม่ มันเพิ่มความรู้ที่สำคัญหรือไม่? (หรือหากคุณสนใจในการทำนายเพียงอย่างเดียวมันช่วยทำนายได้หรือไม่)

โดยทั่วไปบางครั้งกรณีที่การค้นหาเอฟเฟกต์ขนาดเล็กมากน่าสนใจ


คุณเพิ่งพูดว่าอัลกอริทึมที่ดีสำหรับการเลือกแบบจำลอง Arima ไม่ควรยึดตามเกณฑ์ AIC เพียงอย่างเดียวหรือไม่?
ไฮเบอร์เนต

ใช่ฉันพูดแบบนั้น
Peter Flom

และในตอนนี้ฉันก็ได้ยินว่าลาอัตโนมัติอาริมา การตั้งค่าของฉันจะเป็นไปตามวิธีการที่อธิบายไว้ในบทที่ 6 ของ Bisgaard, S. & Kulahci, M. การวิเคราะห์อนุกรมเวลาและการพยากรณ์ตามตัวอย่าง John Wiley & Sons, Inc. , 2011, แม่นยำยิ่งขึ้นในหัวข้อ 6.5 IMPULSE RESPONSE FUNCTION TO STUDY ความแตกต่างในรุ่น
จำศีล

1
@Hibernating: ผู้เขียนauto.arima, Hyndman & Khandakar (2008)กล่าวว่า: - "การคาดการณ์อัตโนมัติของจำนวนมากของชุดเวลา univariate มักจะมีความจำเป็นในการทำธุรกิจมันเป็นเรื่องธรรมดาที่จะมีมากกว่าหนึ่งพันสายผลิตภัณฑ์ที่จำเป็นในการคาดการณ์อย่างน้อยเดือน. แม้ว่าจะต้องใช้การคาดการณ์จำนวนน้อยก็อาจไม่มีใครได้รับการฝึกฝนอย่างเหมาะสมในการใช้แบบจำลองอนุกรมเวลาเพื่อสร้างมันขึ้นมาในสถานการณ์เหล่านี้อัลกอริทึมการพยากรณ์อัตโนมัติเป็นเครื่องมือสำคัญ " หมายเหตุสถานการณ์เหล่านี้
Scortchi - Reinstate Monica

2
ขอบคุณ แต่ฉันเคยอ่านมันมาก่อน แม้ว่าเราจะไม่สนใจปัญหาที่ชัดเจนของชิ้นส่วน "อัตโนมัติ" ในตอนนี้ แต่ก็ยังมีปัญหาเกี่ยวกับส่วน "arima" โดยเฉพาะอย่างยิ่งเมื่อมีการขยายเพื่อรวมรุ่นตามฤดูกาล แบบจำลอง ARIMA ตามฤดูกาลได้รับการวิพากษ์วิจารณ์อย่างมากจาก PJ Harrison, C Chatfield และบุคคลอื่นที่ฉันเกิดขึ้นเพื่อเรียนรู้จากฉัน ฉันไม่มีอะไรเทียบกับการพยากรณ์อัตโนมัติเมื่อฉัน) จำเป็นอย่างยิ่งและ ii) ตามอัลกอริทึมที่ฉันสามารถหาได้ - ไม่อย่างนั้นฉันทำตามคำแนะนำของ DR Cox ในความคิดเห็นของเขาเกี่ยวกับกระดาษ "สองวัฒนธรรม" ของ Leo Breiman
ไฮเบอร์เนต

8

PP


2
ประโยคสุดท้ายของคุณน่าสนใจ ฉันจำได้ว่าฉันอ่านว่าการเพิ่มตัวพยากรณ์ที่ไม่มีนัยสำคัญลงในการถดถอยอาจเป็นสิ่งที่สมเหตุสมผลหากจุดประสงค์ขั้นสุดท้ายเป็นการคาดการณ์ ฉันไม่ได้สนใจมันมากนักในเวลานั้น แต่ตอนนี้ฉันจะพยายามหาข้อมูลอ้างอิงนั้น
ไฮเบอร์เนต

3
แทนการเพิ่มผมจะบอกว่าหลีกเลี่ยงการลบ และไม่ใช่แค่การคาดการณ์ แต่การใช้การประเมินความสัมพันธ์ทางสถิติเพื่อเป็นแนวทางในการเลือกตัวแปรทำให้เกิดอคติและข้อผิดพลาดมาตรฐานที่ไม่ถูกต้องและขีด จำกัด ของความเชื่อมั่น
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.