ทำไมการทดสอบสมมติฐานเกี่ยวกับชุดข้อมูลที่ resampled ปฏิเสธค่า null บ่อยเกินไป?
tl; dr: เริ่มต้นด้วยชุดข้อมูลที่สร้างขึ้นภายใต้ null ฉัน resampled กรณีที่มีการเปลี่ยนและดำเนินการทดสอบสมมติฐานในแต่ละชุดข้อมูล resampled การทดสอบสมมติฐานเหล่านี้ปฏิเสธค่าว่างมากกว่า 5% ของเวลา ในด้านล่างการจำลองที่ง่ายมากฉันสร้างชุดข้อมูลด้วยและฉันพอดีกับ OLS แบบง่าย ๆ จากนั้นสำหรับแต่ละชุดข้อมูลฉันสร้างชุดข้อมูลใหม่ 1,000 ชุดโดยการสุ่มแถวใหม่ของชุดข้อมูลเดิมพร้อมการแทนที่ (อัลกอริทึมที่อธิบายไว้โดยเฉพาะในข้อความคลาสสิกของ Davison & Hinkley ว่าเหมาะสมสำหรับการถดถอยเชิงเส้น) สำหรับแต่ละอันฉันพอดีกับ OLS รุ่นเดียวกัน ในที่สุดประมาณ 16% ของการทดสอบสมมติฐานในตัวอย่าง bootstrap ปฏิเสธ nullในขณะที่เราควรได้รับ 5% (ตามที่เราทำในชุดข้อมูลดั้งเดิม)X∼N(0,1)⨿Y∼N(0,1)X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) ฉันสงสัยว่ามันมีบางอย่างเกี่ยวกับการสังเกตซ้ำ ๆ ทำให้เกิดความสัมพันธ์ที่สูงเกินจริงดังนั้นในการเปรียบเทียบฉันลองวิธีอื่นสองวิธีในรหัสด้านล่าง (แสดงความคิดเห็น) ในวิธีที่ 2 ฉันแก้ไขจากนั้นแทนที่ด้วยส่วนที่เหลือ resampled จากโมเดล OLS …