สามารถใช้ bootstrap resampling ใหม่เพื่อคำนวณช่วงความมั่นใจสำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?


9

ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT) ดังนั้นคุณสามารถคำนวณช่วงความมั่นใจในค่าเฉลี่ยของชุดข้อมูลได้โดยไม่ต้องทำการตั้งสมมติฐานใด ๆ เกี่ยวกับการแจกแจงความน่าจะเป็นของชุดข้อมูล

ฉันสงสัยว่าถ้าคุณสามารถทำสิ่งที่คล้ายกันกับความแปรปรวน นั่นคือถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน (ไม่ว่าการแจกแจงความน่าจะเป็นดั้งเดิมของชุดข้อมูลนั้นคืออะไร)

ฉันรู้ว่าถ้าชุดข้อมูลดั้งเดิมนั้นเป็นเรื่องปกติความแปรปรวนจะเป็นไปตามการแจกแจงแบบไคสแควร์ แต่ในกรณีที่มันไม่ปกติ

คำตอบ:


10

Bootstrap Resampling สามารถใช้ในการคำนวณ Confidence Interval สำหรับความแปรปรวนของชุดข้อมูลได้หรือไม่?

ใช่เช่นเดียวกับสถิติอื่น ๆ อีกมากมาย

ฉันรู้ว่าถ้าคุณสุ่มตัวอย่างจากชุดข้อมูลซ้ำหลาย ๆ ครั้งและคำนวณค่าเฉลี่ยในแต่ละครั้งค่าเฉลี่ยเหล่านี้จะเป็นไปตามการแจกแจงแบบปกติ (โดย CLT)

ไม่ใช่ทุกกรณีที่หากคุณบู๊ตสแตรปหมายความว่าบู๊ทสแตรปจะทำตามการแจกแจงแบบปกติแม้กระทั่งการแจกแจงที่ CLT ใช้

ต่อไปนี้เป็นตัวอย่างที่ฉันปรับค่าเฉลี่ยตัวอย่างสำหรับขนาดโดยที่ฉันสุ่มใหม่ 10,000 ครั้ง:n=100

ป้อนคำอธิบายรูปภาพที่นี่

มันไม่ใช่เรื่องปกติจากระยะไกล

ตัวอย่างดั้งเดิมประกอบด้วยค่า '0' เก้าสิบเจ็ดและ '1', '2' และ '100'

นี่คือรหัส (R) ที่ฉันวิ่งเพื่อสร้างพล็อตด้านบน:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

ปัญหาคือในกรณีนี้ขนาดตัวอย่าง (100) มีขนาดเล็กเกินไปสำหรับ CLT ที่จะใช้กับรูปร่างการกระจายประเภทนี้ ไม่สำคัญว่าเราจะลองใหม่อีกครั้ง

อย่างไรก็ตามหากขนาดตัวอย่างดั้งเดิมมีขนาดใหญ่กว่ามากการกระจายตัวอย่างแบบสุ่มหมายถึงสิ่งที่ต้องการจะดูเป็นเรื่องปกติมากขึ้น (แม้ว่าจะไม่ต่อเนื่อง)

ต่อไปนี้เป็น ecdfs เมื่อทำการสุ่มตัวอย่างข้อมูลข้างต้น (สีดำ) และสำหรับค่าในสัดส่วนเดียวกัน แต่มีค่ามากเป็นสิบเท่า (สีแดงนั่นคือ n = 1,000):

ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่เราเห็นฟังก์ชั่นการกระจายเมื่อ resampling ตัวอย่างขนาดใหญ่นั้นดูปกติมากกว่า

ถ้าฉันต้องสุ่มตัวอย่างใหม่จากชุดข้อมูลหลาย ๆ ครั้งและคำนวณความแปรปรวนในแต่ละครั้งความแปรปรวนเหล่านี้จะเป็นไปตามการแจกแจงที่แน่นอน

ไม่ด้วยเหตุผลเดียวกันไม่จำเป็นต้องเป็นเรื่องจริงสำหรับค่าเฉลี่ย

อย่างไรก็ตาม CLT ยังใช้กับความแปรปรวน *; เป็นเพียงว่าคุณไม่สามารถยืนยันได้ว่า CLT ใช้กับการบูตใหม่ resampling ง่ายๆโดยการ resamples มากมาย ถ้าขนาดตัวอย่างดั้งเดิมมีขนาดใหญ่เพียงพออาจ (ภายใต้เงื่อนไขที่เหมาะสม) มีแนวโน้มที่จะทำให้การกระจายตัวของวิธีการ (และช่วงเวลาที่สูงกว่าถ้ามี) ค่อนข้างใกล้เคียงกับการแจกแจงแบบปกติ (เทียบกับการกระจายตัวในตัวอย่างขนาดเล็กที่ น้อยที่สุด).

* ว่า CLT มักจะใช้กับความแปรปรวน (สมมติว่ามีช่วงเวลาที่เหมาะสมอยู่) หากคุณคิดว่า . ให้ ; ดังนั้นดังนั้นหาก CLT ใช้กับ -variable สามารถใช้กับได้ ตอนนี้เป็นเพียงรุ่นที่ปรับขนาดของ ; ถ้า CLT นำไปใช้กับก็จะนำไปใช้กับ 2 โครงร่างของการโต้แย้งนี้ยังไม่สมบูรณ์อย่างไรก็ตามมีข้อยกเว้นบางประการที่คุณอาจไม่คาดคิดในตอนแรกsn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.