เหตุใดการเลือกใช้แบบจำลองโดยใช้ AIC จึงให้ค่า p ที่ไม่สำคัญสำหรับตัวแปร


14

ฉันมีคำถามบางอย่างเกี่ยวกับ AIC และหวังว่าคุณจะสามารถช่วยฉันได้ ฉันใช้การเลือกแบบจำลอง (ย้อนกลับหรือไปข้างหน้า) ตาม AIC กับข้อมูลของฉัน และตัวแปรที่เลือกบางตัวก็จบลงด้วยค่า p> 0.05 ฉันรู้ว่าผู้คนกำลังพูดว่าเราควรเลือกแบบจำลองตาม AIC แทนค่า p ดังนั้นดูเหมือนว่า AIC และค่า p เป็นแนวคิดสองประการที่แตกต่างกัน มีคนบอกฉันว่าอะไรคือความแตกต่าง? สิ่งที่ฉันเข้าใจคือ:

  1. สำหรับการเลือกย้อนหลังโดยใช้ AIC สมมติว่าเรามี 3 ตัวแปร (var1, var2, var3) และ AIC ของรุ่นนี้คือ AIC * หากไม่รวมหนึ่งในสามของตัวแปรเหล่านี้จะไม่จบลงด้วย AIC ซึ่งต่ำกว่า AIC * อย่างมาก (ในแง่ของการกระจาย ch-square ด้วย df = 1) จากนั้นเราจะบอกว่าตัวแปรทั้งสามนี้เป็นผลลัพธ์สุดท้าย

  2. p-value ที่สำคัญสำหรับตัวแปร (เช่น var1) ในแบบจำลองตัวแปรสามตัวหมายความว่าขนาดเอฟเฟกต์มาตรฐานของตัวแปรนั้นแตกต่างจาก 0 อย่างมาก (อ้างอิงจาก Wald หรือ t-test)

ความแตกต่างพื้นฐานระหว่างสองวิธีนี้คืออะไร ฉันจะตีความมันได้อย่างไรหากมีตัวแปรบางตัวที่มีค่า p ที่ไม่สำคัญในแบบจำลองที่ดีที่สุดของฉัน (ที่ได้รับผ่าน AIC)

คำตอบ:


13

AIC และตัวแปรใกล้เคียงกับความแปรปรวนของR2 p-values ​​ของ regressor แต่ละตัว แม่นยำยิ่งขึ้นพวกเขาถูกลงโทษในรูปแบบของโอกาสในการบันทึก

คุณไม่ต้องการทดสอบความแตกต่างของ AIC โดยใช้ chi-squared คุณสามารถทดสอบความแตกต่างของความน่าจะเป็นได้โดยใช้ไค - สแควร์ (ถ้าแบบจำลองซ้อนอยู่) สำหรับ AIC นั้นต่ำกว่าดีกว่า (ในการใช้งานส่วนใหญ่ของมัน) ไม่จำเป็นต้องทำการปรับเปลี่ยนเพิ่มเติม

คุณต้องการหลีกเลี่ยงวิธีการเลือกรูปแบบอัตโนมัติจริง ๆ ถ้าคุณสามารถทำได้ หากคุณต้องใช้ลอง LASSO หรือ LAR


2
ขอบคุณสำหรับคำตอบ ใช่คุณถูก. AIC ไม่ได้ใช้การทดสอบใด ๆ แต่จะให้การวัดอย่างง่ายว่าแบบจำลองที่เหมาะกับตัวอย่างนั้นดีแค่ไหนและแบบจำลองนั้นสามารถรักษาได้ง่ายเช่นกันหรือไม่โดยเพิ่ม -2 * loglikelihood ด้วย 2 * number_of_parameters บางทีนี่อาจอธิบายได้ว่าทำไมตัวแปรที่มีค่า p ที่ไม่สำคัญถูกเก็บไว้ในรูปแบบที่เลือก?
tiantianchen

เราควรเลือกรุ่นใดถ้าเรามีสองรุ่นที่มี AIC เกือบเหมือนกัน แต่ในรุ่นหนึ่งเรามีข้อกำหนดที่สำคัญกว่าในอีกรุ่นหนึ่ง
Agus Camacho

แล้วแต่ว่าคุณต้องการ
Peter Flom - Reinstate Monica

11

χ12

ดังนั้นจึงไม่ค่อยน่าแปลกใจถ้าคุณเปรียบเทียบกับการใช้ cutoff ขนาดเล็กกว่าสำหรับค่า p ซึ่งบางครั้งก็มีตัวแปรที่มีค่า p สูงกว่า cutoff นั้น


คุณสามารถชี้ให้ฉันไปที่ url หรือการอ้างอิงสำหรับการเชื่อมต่อระหว่าง AIC และ p-values ​​ผ่าน Wal chi-square ได้ไหม? ขอบคุณ
Meh

นี่เป็นเรื่องง่ายที่จะแสดงโดยใช้ค่า 2 เป็นค่าวิกฤตซึ่งสอดคล้องกับค่า p-value ที่ 15.73% (เมื่อองศาอิสระของการทดสอบเท่ากับ 1 เช่นกรณีในการเลือกแบบขั้นตอนโดยใช้การถดถอยเชิงเส้น แบบจำลองและตัวแปรต่อเนื่อง) สามารถคำนวณได้เป็น 1-chi2cdf (2,1)
จอร์จ

@aginensky ยังไม่เห็นการอ้างอิงจริงแม้ว่าการเชื่อมต่อจะตรงไปตรงมา ฉันคิดว่าฉันสามารถ google ขึ้นหนึ่งแขวน
Glen_b -Reinstate Monica

@aginensky Lindsey, JK & Jones, B. (1998) การเลือกโมเดลเชิงเส้นทั่วไปที่ใช้กับข้อมูลทางการแพทย์ สถิติทางการแพทย์ , 17, 59-68 ... ดูกลางหน้า 62 จะมีมากกว่านี้
Glen_b -Reinstate Monica

@ Glen_b- ขอบคุณฉันไม่เคยเห็นอะไรแบบนั้นมาก่อน
Meh

9

โปรดทราบว่าค่า p หรือค่า AIC ไม่ได้รับการออกแบบมาสำหรับการเลือกแบบจำลองแบบขั้นตอนในความเป็นจริงข้อสมมติฐานพื้นฐานทั้งสอง (แต่ข้อสมมติฐานที่แตกต่างกัน) ถูกละเมิดหลังจากขั้นตอนแรกในการถดถอยแบบขั้นตอน ตามที่ @PeterFlom พูดถึง LASSO และ / หรือ LAR เป็นทางเลือกที่ดีกว่าถ้าคุณรู้สึกว่าจำเป็นต้องเลือกรูปแบบอัตโนมัติ วิธีการเหล่านั้นดึงการประมาณค่าที่มีขนาดใหญ่โดยบังเอิญ (ซึ่งแบบ stepwise ตอบแทนสำหรับโอกาส) กลับไปที่ 0 และมีแนวโน้มที่จะลำเอียงน้อยกว่า stepwise (และอคติที่เหลือมีแนวโน้มที่จะอนุรักษ์มากกว่า)

ปัญหาใหญ่ของ AIC ที่มักถูกมองข้ามคือขนาดของความแตกต่างในค่า AIC มันเป็นเรื่องธรรมดาที่จะเห็น "ต่ำกว่าดีกว่า" และหยุดที่นั่น (และดำเนินการโดยอัตโนมัติเพียงแค่เน้นสิ่งนี้) หากคุณกำลังเปรียบเทียบรุ่น 2 รุ่นและมีค่า AIC ที่แตกต่างกันมากแสดงว่ามีการตั้งค่าที่ชัดเจนสำหรับรุ่นที่มี AIC ต่ำกว่า แต่บ่อยครั้งที่เราจะมีรุ่น 2 (หรือมากกว่า) ที่มีค่า AIC ซึ่งอยู่ใกล้กัน กรณีนี้ใช้เฉพาะรุ่นที่มีค่า AIC ต่ำสุดเท่านั้นที่จะพลาดข้อมูลที่มีค่า (และสรุปสิ่งต่าง ๆ เกี่ยวกับคำศัพท์ที่อยู่ในหรือไม่อยู่ในรุ่นนี้ แต่แตกต่างจากรุ่นอื่น ๆ ที่คล้ายคลึงกันจะไม่มีความหมายหรือแย่ลง) ข้อมูลจากข้อมูลภายนอกเอง (เช่นความยาก / ราคาแพง) มันคือการรวบรวมชุดของตัวแปรทำนาย) อาจทำให้แบบจำลองที่มี AIC สูงกว่าเล็กน้อยเป็นที่ต้องการมากกว่าที่จะใช้โดยไม่สูญเสียคุณภาพมากนัก อีกวิธีหนึ่งคือการใช้ค่าเฉลี่ยถ่วงน้ำหนักของแบบจำลองที่คล้ายกัน (นี่อาจส่งผลให้การคาดการณ์ขั้นสุดท้ายคล้ายกันกับวิธีการลงโทษเช่นสันเขาถดถอยหรือบ่วง แต่กระบวนการคิดที่นำไปสู่แบบจำลองอาจช่วยในการทำความเข้าใจ)


ขอบคุณ @GregSnow สำหรับคำตอบของคุณ ฉันขอถามสมมติฐาน (ต่างกัน) สำหรับการเลือกรุ่นตามค่า p และค่า AIC ได้อย่างไร การใช้ทิศทางสองทาง (ไปข้างหน้า / ถอยหลัง) หรือลองชุดย่อยเต็มจะแก้ปัญหาในการหารูปแบบที่เหมาะสมที่สุดในท้องถิ่นของการทำให้เรียบง่ายโดยใช้การเลือกแบบก้าวไปข้างหน้าหรือข้างหลัง? (แม้ว่าปัญหาของการ overfitting อยู่เสมอใน AIC / วิธี p-value และเชือกและ / หรือ LAR เป็นตัวเลือกที่ดีกว่า)
tiantianchen

เนื่องจากไม่มีค่า p หรือ AIC ถูกออกแบบมาสำหรับการเลือกแบบจำลองพวกเขาไม่มีข้อสันนิษฐานสำหรับการเลือกแบบจำลอง ทั้งสองถูกออกแบบมาเพื่อทำการเปรียบเทียบเดียวคิดเกี่ยวกับจำนวนการเปรียบเทียบที่เกิดขึ้นในการถดถอยแบบขั้นตอนคุณคิดว่าขั้นตอน "ดีที่สุด" นั้นเกิดขึ้นทุกครั้งหรือไม่
เกร็กสโนว์

@GregSnow การอ้างอิงของฉันสำหรับการเรียนรู้ AIC คือสิ่งนี้ - stat.cmu.edu/~larry/=stat705/Lecture16.pdf ซึ่งดูเหมือนว่าจะนำ AIC ไปใช้ในธุรกิจการเลือกรูปแบบ นอกจากนี้เมื่อฉันเห็น AIC ใช้ในแบบจำลองเวลา arima อนุกรมมันถูกใช้สำหรับการเลือกรูปแบบเสมอ
Meh

@aginensky, ใช่, AIC (และอื่น ๆ ) ใช้สำหรับการเลือกแบบจำลอง แต่นั่นก็ไม่ได้หมายความว่า AIC นั้นถูกออกแบบมาสำหรับการเลือกรูปแบบหรือว่ามันเหมาะสมสำหรับการเลือกรูปแบบหรือการเลือกรูปแบบอัตโนมัตินั้นตอบคำถามที่มีความหมาย ฉันเคยใช้ไขควงเป็นค้อนมาก่อนนั่นไม่ได้หมายความว่ามันเป็นความคิดที่ดีโดยทั่วไป
Greg Snow

"บทความนี้อธิบายถึงวิธีการจัดการปัญหาการเลือกรูปแบบทางสถิติอย่างเป็นระบบโดยใช้เกณฑ์ข้อมูล (AIC) ที่ผู้เขียนนำเสนอในปี 1971" จาก Akaike "รูปลักษณ์ใหม่ของการระบุตัวแบบเชิงสถิติ" ดังนั้นแม้ว่า AIC จะเป็นค้อนที่ใช้กับปัญหาที่แก้ไขได้ดีที่สุดด้วยไขควง แต่เป็นมุมมองของนักออกแบบของค้อนนี้ว่าค้อนเป็นวิธีที่ถูกต้องในการแก้ปัญหานี้ ถูกต้องหรือไม่ถูกต้อง AIC ได้รับการออกแบบสำหรับการเลือกรุ่น ฉันยินดีที่ได้เห็นมุมมองที่แตกต่างของ AIC รู้สึกอิสระที่จะตอบคำถามนี้ แต่ฉันทำกับ
Meh

1

ประสบการณ์ของฉันกับ AIC คือถ้าตัวแปรปรากฏว่าไม่มีนัยสำคัญ แต่ยังคงปรากฏในโมเดลที่มี AIC ที่เล็กที่สุดสิ่งเหล่านั้นกลายเป็นสิ่งที่สับสนได้

ฉันขอแนะนำให้คุณตรวจสอบว่ารบกวน การลบตัวแปรที่ไม่มีนัยสำคัญดังกล่าวควรเปลี่ยนสนามแม่เหล็กของสัมประสิทธิ์ประมาณค่าที่เหลือประมาณ 25%


โปรดอธิบายว่า OP "สามารถตรวจสอบความสับสนได้อย่างไร"
จิม

0

ฉันคิดว่าการเลือกรุ่นที่ดีที่สุดคือการใช้แพ็คเกจ MuMIn นี่จะเป็นผลลัพธ์ครั้งเดียวและคุณไม่ต้องมองหาค่า AIC ที่ต่ำที่สุด ตัวอย่าง:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]

2
การบอกว่าคุณใช้รหัสใดไม่ได้ตอบคำถามจริงๆนอกจากคุณจะสามารถอธิบายได้ว่าวิธีแก้ปัญหานั้นอยู่ในเชิงสถิติอย่างไร ไม่ว่าในกรณีใด ๆ ไม่มีคำถามเฉพาะซอฟต์แวร์เฉพาะ
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.