Bootstrap Resampling สามารถใช้ในการคำนวณ Confidence Interval สำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?
ใช่เช่นเดียวกับสถิติอื่น ๆ อีกมากมาย
ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT)
ไม่ใช่ทุกกรณีที่หากคุณบู๊ตสแตรปหมายความว่าบู๊ทสแตรปจะทำตามการแจกแจงแบบปกติแม้กระทั่งการแจกแจงที่ CLT ใช้
ต่อไปนี้เป็นตัวอย่างที่ฉันปรับค่าเฉลี่ยตัวอย่างสำหรับขนาดโดยที่ฉันสุ่มใหม่ 10,000 ครั้ง:n=100
มันไม่ใช่เรื่องปกติจากระยะไกล
ตัวอย่างดั้งเดิมประกอบด้วยค่า '0' เก้าสิบเจ็ดและ '1', '2' และ '100'
นี่คือรหัส (R) ที่ฉันวิ่งเพื่อสร้างพล็อตด้านบน:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
ปัญหาคือในกรณีนี้ขนาดตัวอย่าง (100) มีขนาดเล็กเกินไปสำหรับ CLT ที่จะใช้กับรูปร่างการกระจายประเภทนี้ ไม่สำคัญว่าเราจะลองใหม่อีกครั้ง
อย่างไรก็ตามหากขนาดตัวอย่างดั้งเดิมมีขนาดใหญ่กว่ามากการกระจายตัวอย่างแบบสุ่มหมายถึงสิ่งที่ต้องการจะดูเป็นเรื่องปกติมากขึ้น (แม้ว่าจะไม่ต่อเนื่อง)
ต่อไปนี้เป็น ecdfs เมื่อทำการสุ่มตัวอย่างข้อมูลข้างต้น (สีดำ) และสำหรับค่าในสัดส่วนเดียวกัน แต่มีค่ามากเป็นสิบเท่า (สีแดงนั่นคือ n = 1,000):
อย่างที่เราเห็นฟังก์ชั่นการกระจายเมื่อ resampling ตัวอย่างขนาดใหญ่นั้นดูปกติมากกว่า
ถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน
ไม่ด้วยเหตุผลเดียวกันไม่จำเป็นต้องเป็นเรื่องจริงสำหรับค่าเฉลี่ย
อย่างไรก็ตาม CLT ยังใช้กับความแปรปรวน *; เป็นเพียงว่าคุณไม่สามารถยืนยันได้ว่า CLT ใช้กับการบูตใหม่ resampling ง่ายๆโดยการ resamples มากมาย ถ้าขนาดตัวอย่างดั้งเดิมมีขนาดใหญ่เพียงพออาจ (ภายใต้เงื่อนไขที่เหมาะสม) มีแนวโน้มที่จะทำให้การกระจายตัวของวิธีการ (และช่วงเวลาที่สูงกว่าถ้ามี) ค่อนข้างใกล้เคียงกับการแจกแจงแบบปกติ (เทียบกับการกระจายตัวในตัวอย่างขนาดเล็กที่ น้อยที่สุด).
* ว่า CLT มักจะใช้กับความแปรปรวน (สมมติว่ามีช่วงเวลาที่เหมาะสมอยู่) หากคุณคิดว่า . ให้ ; ดังนั้นดังนั้นหาก CLT ใช้กับ -variable สามารถใช้กับได้ ตอนนี้เป็นเพียงรุ่นที่ปรับขนาดของ ; ถ้า CLT นำไปใช้กับก็จะนำไปใช้กับ 2 โครงร่างของการโต้แย้งนี้ยังไม่สมบูรณ์อย่างไรก็ตามมีข้อยกเว้นบางประการที่คุณอาจไม่คาดคิดในตอนแรกs2n=1n∑ni=1(xi−x¯)2yi=(xi−x¯)2s2n=y¯ys2ns2n−1s2ns2ns2n−1