หลังจากดำเนินการเลือกแบบขั้นตอนตามเกณฑ์ AIC มันทำให้เข้าใจผิดในการดูค่า p เพื่อทดสอบสมมติฐานว่างว่าแต่ละสัมประสิทธิ์การถดถอยที่แท้จริงเป็นศูนย์
อันที่จริงค่า p แสดงถึงความน่าจะเป็นที่จะเห็นสถิติการทดสอบอย่างน้อยที่สุดเท่าที่คุณมีเมื่อสมมติฐานว่างเป็นจริง ถ้าเป็นจริงค่า p ควรมีการแจกแจงแบบสม่ำเสมอH0
แต่หลังจากการเลือกแบบขั้นตอน (หรือแน่นอนหลังจากความหลากหลายของวิธีการเลือกรูปแบบอื่น ๆ ) ค่า p ของคำเหล่านั้นที่ยังคงอยู่ในแบบจำลองนั้นไม่มีคุณสมบัตินั้นแม้ว่าเราจะรู้ว่าสมมติฐานว่างเปล่านั้นเป็นจริง
สิ่งนี้เกิดขึ้นเพราะเราเลือกตัวแปรที่มีหรือมีแนวโน้มที่จะมีค่า p น้อย ๆ (ขึ้นอยู่กับเกณฑ์ที่แม่นยำที่เราใช้) ซึ่งหมายความว่าค่า p ของตัวแปรที่เหลืออยู่ในแบบจำลองนั้นมักจะเล็กกว่ามากหากเราจะติดตั้งแบบจำลองเดียว โปรดทราบว่าการเลือกจะเลือกรุ่นโดยเฉลี่ยที่ดูเหมือนจะดีกว่าโมเดลจริงถ้าคลาสของโมเดลมีโมเดลจริงหรือหากคลาสของโมเดลยืดหยุ่นเพียงพอที่จะประมาณโมเดลจริงอย่างใกล้ชิด
[นอกจากนี้และด้วยเหตุผลเดียวกันค่าสัมประสิทธิ์ที่เหลืออยู่นั้นมีอคติห่างจากศูนย์และข้อผิดพลาดมาตรฐานของพวกเขานั้นมีอคติต่ำ สิ่งนี้จะส่งผลกระทบต่อช่วงความเชื่อมั่นและการคาดการณ์เช่นกัน - การคาดการณ์ของเราจะแคบเกินไปเช่น]
ในการดูเอฟเฟกต์เหล่านี้เราสามารถทำการถดถอยหลายครั้งโดยที่ค่าสัมประสิทธิ์บางค่าเป็น 0 และบางค่าไม่ได้ดำเนินการตามขั้นตอนแบบขั้นตอนจากนั้นสำหรับแบบจำลองเหล่านั้นที่มีตัวแปรที่มีค่าสัมประสิทธิ์เป็นศูนย์
(ในการจำลองเดียวกันคุณสามารถดูค่าประมาณและส่วนเบี่ยงเบนมาตรฐานสำหรับค่าสัมประสิทธิ์และค้นหาค่าที่ตรงกับค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์ได้เช่นกัน)
กล่าวโดยสรุปไม่เหมาะสมที่จะพิจารณาค่า p ปกติว่ามีความหมาย
ฉันได้ยินมาว่าควรพิจารณาตัวแปรทั้งหมดที่เหลืออยู่ในตัวแบบเป็นสำคัญแทน
สำหรับว่าค่าทั้งหมดในแบบจำลองหลังจากขั้นตอนควรเป็น 'ถือว่ามีความสำคัญ' ฉันไม่แน่ใจว่าขอบเขตที่เป็นวิธีที่มีประโยชน์ในการดู "ความสำคัญ" มีเจตนาที่จะหมายถึงอะไร?
นี่คือผลลัพธ์ของการรัน R stepAIC
โดยมีการตั้งค่าเริ่มต้นใน 1,000 ตัวอย่างจำลองที่มี n = 100 และตัวแปรตัวเลือกสิบตัว (ไม่มีสิ่งใดที่เกี่ยวข้องกับการตอบสนอง) ในแต่ละกรณีจำนวนคำที่เหลืออยู่ในแบบจำลองจะถูกนับ:
มีเพียง 15.5% เท่านั้นที่เลือกรุ่นที่ถูกต้อง เวลาที่เหลือของแบบจำลองรวมคำศัพท์ที่ไม่แตกต่างจากศูนย์ หากเป็นไปได้จริง ๆ แล้วว่ามีตัวแปรสัมประสิทธิ์เป็นศูนย์ในชุดของตัวแปรที่มีผลบังคับใช้เราน่าจะมีหลายเงื่อนไขที่ค่าสัมประสิทธิ์ที่แท้จริงเป็นศูนย์ในแบบจำลองของเรา ด้วยเหตุนี้จึงไม่ชัดเจนว่าเป็นความคิดที่ดีที่จะพิจารณาว่าทั้งหมดไม่ใช่ศูนย์