AIC หรือ p-value: อันไหนที่จะเลือกสำหรับการเลือกรูปแบบ?


22

ฉันใหม่เอี่ยมกับสิ่ง R นี้ แต่ไม่แน่ใจว่าจะเลือกรุ่นใด

  1. ฉันทำการถดถอยไปข้างหน้าทีละขั้นตอนเลือกตัวแปรแต่ละตัวตาม AIC ที่ต่ำที่สุด ฉันมากับ 3 แบบที่ฉันไม่แน่ใจซึ่งเป็น "ดีที่สุด"

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    ฉันอยากจะไปกับ Model # 3 เพราะมันมี AIC ต่ำที่สุด (ฉันได้ยินว่าเป็นลบก็โอเค) และค่า p ยังค่อนข้างต่ำ

    ฉันใช้ตัวแปร 8 ตัวเป็นตัวทำนายมวล Hatchling และพบว่าตัวแปรทั้งสามนี้เป็นตัวทำนายที่ดีที่สุด

  2. ขั้นตอนถัดไปของฉันต่อไปฉันเลือกรุ่นที่ 2 เพราะแม้ว่า AIC จะใหญ่กว่าเล็กน้อยค่า p ก็เล็กลงทั้งหมด คุณเห็นด้วยหรือเปล่าว่าสิ่งนี้ดีที่สุด?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

ขอบคุณ!


คุณช่วยบอกความแตกต่างระหว่าง (1) และ (2) ได้ไหม เห็นได้ชัดว่ามีการเปลี่ยนแปลงบางอย่างเนื่องจากรุ่น 3 ใน (1) และรุ่น 2 ใน (2) มีความเหมือนกันในนาม แต่ค่า p และ AIC แตกต่างกัน
whuber

2
คำถามนี้ได้รับการโพสต์ซ้ำสองครั้งซึ่งหมายความว่าไม่เพียง แต่เราจะต้องปิดพวกเขา แต่ยังตอบกลับที่เกี่ยวข้องที่ให้ไว้กับคุณแล้ว คุณช่วยกรุณาลงทะเบียนบัญชีของคุณ (ดูคำถามที่พบบ่อย ) และใส่ใจกับนโยบายการโพสต์ StackExchange ในอนาคตหรือไม่ ขอบคุณ
chl

@whuber ฉันกลัวว่าฉันไม่เข้าใจคำถามของคุณอย่างเต็มที่ อาจเป็นเพราะขาดความเข้าใจทางสถิติ แต่ต้องพยายามชี้แจงให้ชัดเจน รุ่นที่ 1 มี 4 ตัวแปรรุ่นที่ 2 มี 3 ตัวแปรและรุ่นที่ 3 มี 2 ตัวแปร ตัวแปรอยู่ในลำดับเดียวกันในทุกรุ่น (หมายถึงตัวแปรหนึ่ง = อุณหภูมิในแต่ละรุ่น) ฉันคิดว่า @GaBorgulya และ @djma ตอบคำถามของฉันอย่างสมบูรณ์แบบ ตัวแปร 4 นั้นสัมพันธ์กับตัวแปร 3 AH-HA! มีเหตุผล. ขอบคุณเยอะแยะ!
MEL

ฉันได้แปลงคำตอบของคุณเป็นความคิดเห็นด้านบน หากคุณรู้สึกว่าคำตอบหนึ่งในปัจจุบันช่วยคุณหรือตอบคำถามอย่าลืมยอมรับตามที่ @richiemorrisroe เตือนไว้ BTW ดีใจที่เห็นคุณลงทะเบียนบัญชีของคุณ
chl

คำตอบ:


23

AIC เป็นความดีของการวัดแบบพอดีที่ช่วยให้เกิดข้อผิดพลาดเล็ก ๆ น้อย ๆ ในแบบจำลอง แต่ลงโทษสำหรับการรวมตัวทำนายเพิ่มเติมและช่วยหลีกเลี่ยงการ overfitting ในชุดรูปแบบที่สองของคุณรุ่น 1 (อันที่มี AIC ต่ำที่สุด) อาจทำงานได้ดีที่สุดเมื่อใช้สำหรับการทำนายนอกชุดข้อมูลของคุณ คำอธิบายที่เป็นไปได้ว่าทำไมการเพิ่ม Var4 ไปยังรุ่น 2 ส่งผลให้ AIC ต่ำลง แต่ค่า p ที่สูงกว่าคือ Var4 ค่อนข้างมีความสัมพันธ์กับ Var1, 2 และ 3 การตีความของรุ่น 2 นั้นง่ายกว่า


31

การดูค่า p แต่ละค่าอาจทำให้เข้าใจผิด หากคุณมีตัวแปรที่เป็น collinear (มีความสัมพันธ์สูง) คุณจะได้ค่า p ใหญ่ นี่ไม่ได้หมายความว่าตัวแปรนั้นไร้ประโยชน์

ในฐานะกฎย่อง่ายๆการเลือกแบบจำลองของคุณด้วยเกณฑ์ AIC นั้นดีกว่าการดูค่า p

เหตุผลหนึ่งที่อาจไม่เลือกรุ่นที่มี AIC ที่ต่ำที่สุดคือเมื่ออัตราส่วนของตัวแปรต่อดาต้าพอยน์มีขนาดใหญ่

โปรดทราบว่าการเลือกรุ่นและความแม่นยำในการทำนายนั้นเป็นปัญหาที่ค่อนข้างชัดเจน หากเป้าหมายของคุณคือการคาดการณ์ที่แม่นยำฉันขอแนะนำให้ตรวจสอบความถูกต้องของรูปแบบของคุณโดยการแยกข้อมูลของคุณในชุดการฝึกอบรมและการทดสอบ

กระดาษเกี่ยวกับการเลือกตัวแปร: Stochastic Stepwise Ensembles สำหรับการเลือกตัวแปร


4
หากเป้าหมายของคุณคือความแม่นยำในการคาดการณ์คุณต้องการใช้ AIC (เพราะจะลดการเบี่ยงเบนของ KL ที่คาดหวังไว้ระหว่างรุ่นที่ติดตั้งและความจริง) หากคุณต้องการขั้นตอนการเลือกรุ่นที่สอดคล้องกัน (คงที่ p, เพิ่มขึ้น n) คุณสามารถใช้, พูด, BIC แทน การใช้ค่า p ในการถดถอยแบบขั้นตอนเพื่อเลือกสมมติฐานไม่แนะนำให้ใช้
emakalic

8
0.154|เสื้อ|>เข้าสู่ระบบ(ยังไม่มีข้อความ)

-3

AIC ได้รับแรงบันดาลใจจากการประมาณข้อผิดพลาดทั่วไป (เช่น CP, BIC, ... ) หากคุณต้องการแบบจำลองสำหรับการทำนายให้ใช้เกณฑ์เหล่านี้อย่างใดอย่างหนึ่ง หากคุณต้องการให้แบบจำลองของคุณอธิบายปรากฏการณ์ให้ใช้ค่า p

ดูที่นี่ด้วย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.