ฉันคิดว่าวิธีการนี้ผิดพลาด แต่อาจเป็นประโยชน์มากกว่าถ้าฉันอธิบายว่าทำไม ต้องการทราบโมเดลที่ดีที่สุดเนื่องจากข้อมูลบางอย่างเกี่ยวกับตัวแปรจำนวนมากนั้นค่อนข้างเข้าใจได้ ยิ่งกว่านั้นเป็นสถานการณ์ที่ผู้คนดูเหมือนจะพบตัวเองเป็นประจำ นอกจากนี้หนังสือเรียน (และหลักสูตร) เกี่ยวกับการถดถอยครอบคลุมวิธีการเลือกแบบขั้นตอนซึ่งหมายความว่าพวกเขาจะต้องถูกต้องตามกฎหมาย แต่น่าเสียดายที่พวกเขาไม่ได้และการจับคู่ของสถานการณ์และเป้าหมายนี้ค่อนข้างยากที่จะประสบความสำเร็จในการนำทาง ต่อไปนี้เป็นรายการปัญหาเกี่ยวกับขั้นตอนการเลือกแบบจำลองขั้นตอนโดยอัตโนมัติ (มาจาก Frank Harrell และคัดลอกมาจากที่นี่ ):
- มันให้ค่า R-squared ที่มีอคติไม่ดีที่จะสูง
- การทดสอบแบบ F และ Chi-squared ที่อยู่ถัดจากตัวแปรแต่ละตัวในผลงานพิมพ์ไม่มีการแจกแจงแบบอ้างสิทธิ์
- วิธีนี้ให้ช่วงความมั่นใจสำหรับเอฟเฟกต์และค่าคาดการณ์ที่แคบอย่างผิด ๆ เห็น Altman และ Andersen (1989)
- มันให้ค่า p ที่ไม่มีความหมายที่เหมาะสมและการแก้ไขที่เหมาะสมสำหรับพวกเขานั้นเป็นปัญหาที่ยาก
- มันให้ค่าสัมประสิทธิ์การถดถอยแบบเอนเอียงที่ต้องการการหดตัว (ค่าสัมประสิทธิ์สำหรับตัวแปรที่เหลือมีขนาดใหญ่เกินไป; ดู Tibshirani [1996]
- มันมีปัญหาที่รุนแรงในการปรากฏตัวของ collinearity
- มันขึ้นอยู่กับวิธีการ (เช่นการทดสอบ F สำหรับแบบจำลองที่ซ้อนกัน) ที่มีวัตถุประสงค์เพื่อใช้ในการทดสอบสมมติฐานที่กำหนดไว้ล่วงหน้า
- การเพิ่มขนาดตัวอย่างไม่ได้ช่วยอะไรมาก เห็น Derksen และ Keselman (1992)
- มันทำให้เราไม่ต้องคิดถึงปัญหา
- ใช้กระดาษจำนวนมาก
คำถามคือสิ่งที่ไม่ดีเกี่ยวกับขั้นตอนเหล่านี้ / ทำไมปัญหาเหล่านี้เกิดขึ้น? คนส่วนใหญ่ที่เรียนหลักสูตรการถดถอยขั้นพื้นฐานมีความคุ้นเคยกับแนวคิดการถดถอยถึงค่าเฉลี่ยดังนั้นนี่คือสิ่งที่ฉันใช้เพื่ออธิบายปัญหาเหล่านี้ (แม้ว่าตอนนี้อาจดูไม่เป็นประเด็นในตอนแรก แต่จงอดทนกับฉัน แต่ฉันสัญญาว่าจะเกี่ยวข้องกัน)
ลองนึกภาพผู้ฝึกสอนโรงเรียนมัธยมในวันแรกของการคัดเลือก เด็กสามสิบคนปรากฏตัว เด็ก ๆ เหล่านี้มีความสามารถในระดับพื้นฐานบางอย่างที่โค้ชและผู้อื่นไม่สามารถเข้าถึงได้โดยตรง เป็นผลให้โค้ชทำสิ่งเดียวที่เขาสามารถทำได้ซึ่งทำให้พวกเขาทั้งหมดวิ่ง 100 เมตรประ ช่วงเวลานั้นน่าจะเป็นตัวชี้วัดความสามารถที่แท้จริงของพวกเขาและถูกนำมาเป็นเช่นนี้ อย่างไรก็ตามมันน่าจะเป็น สัดส่วนของคนที่ทำได้ดีขึ้นอยู่กับความสามารถที่แท้จริงของพวกเขาและสัดส่วนบางอย่างเป็นแบบสุ่ม ลองนึกภาพว่าสถานการณ์จริงเป็นดังต่อไปนี้:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
ผลการแข่งขันรอบแรกจะแสดงในรูปต่อไปนี้พร้อมกับความเห็นของโค้ชต่อเด็ก ๆ
โปรดทราบว่าการแบ่งเด็กตามเวลาการแข่งขันของพวกเขาทำให้ความสามารถในการซ้อนทับของพวกเขาซ้อนทับกัน - ความจริงข้อนี้สำคัญมาก หลังจากชมบางคนและตะโกนใส่คนอื่น (ตามที่โค้ชมักจะทำ) เขาให้พวกเขาวิ่งอีกครั้ง นี่คือผลการแข่งขันที่สองพร้อมปฏิกิริยาของโค้ช (จำลองจากโมเดลเดียวกันข้างบน):
โปรดสังเกตว่าความสามารถที่แท้จริงของพวกเขานั้นเหมือนกัน แต่เวลาที่เด้งไปรอบ ๆ เมื่อเทียบกับการแข่งขันครั้งแรก จากมุมมองของโค้ชคนที่เขาตะโกนที่มีแนวโน้มที่จะปรับปรุงและคนที่เขายกย่องมักจะทำแย่ลง (ฉันปรับตัวอย่างที่เป็นรูปธรรมนี้จากคำพูดของ Kahneman ที่ระบุไว้ในหน้าวิกิ) แม้ว่าการถดถอยจริงหมายถึงคณิตศาสตร์ง่ายๆ ผลที่ตามมาจากความจริงที่ว่าโค้ชกำลังคัดเลือกนักกีฬาให้กับทีมโดยพิจารณาจากการวัดแบบสุ่มบางส่วน
ทีนี้สิ่งนี้เกี่ยวข้องกับเทคนิคการเลือกแบบอัตโนมัติ (เช่นแบบขั้นตอน) การพัฒนาและยืนยันรูปแบบโดยยึดตามชุดข้อมูลเดียวกันบางครั้งเรียกว่าการขุดลอกข้อมูล. แม้ว่าจะมีความสัมพันธ์ที่แฝงอยู่ระหว่างตัวแปรและคาดว่าความสัมพันธ์ที่แข็งแกร่งจะให้คะแนนที่ดีขึ้น (เช่นสถิติที่สูงขึ้น) แต่เป็นตัวแปรสุ่มและค่าที่รับรู้มีข้อผิดพลาด ดังนั้นเมื่อคุณเลือกตัวแปรโดยมีค่าที่สูงขึ้น (หรือต่ำกว่า) ที่รับรู้พวกเขาอาจเป็นเช่นนั้นเพราะคุณค่าที่แท้จริงข้อผิดพลาดหรือทั้งสองอย่าง หากคุณดำเนินการในลักษณะนี้คุณจะประหลาดใจเช่นเดียวกับโค้ชหลังจากการแข่งขันครั้งที่สอง สิ่งนี้เป็นจริงไม่ว่าคุณจะเลือกตัวแปรตามการมีสถิติ t สูงหรือมีความสัมพันธ์ต่ำ จริงการใช้ AIC นั้นดีกว่าการใช้ p-values เพราะมันลงโทษโมเดลสำหรับความซับซ้อน แต่ AIC นั้นเป็นตัวแปรสุ่ม (ถ้าคุณรันการศึกษาหลายครั้งและเหมาะกับรูปแบบเดียวกัน AIC จะเด้งเหมือน อย่างอื่น). น่าเสียดาย,
ฉันหวังว่านี้จะเป็นประโยชน์.