ขนาดของตัวอย่างบู๊ตสแตรป


9

ฉันเรียนรู้เกี่ยวกับการบูตสแตรปเป็นวิธีการประมาณความแปรปรวนของสถิติตัวอย่าง ฉันมีข้อสงสัยพื้นฐานหนึ่งข้อ

ข้อความจากhttp://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

•เราควรลองสังเกตซ้ำอีกครั้ง คำแนะนำที่ดีคือขนาดตัวอย่างดั้งเดิม

เราจะสุ่มตัวอย่างการสังเกตได้มากเท่าในตัวอย่างดั้งเดิมได้อย่างไร
ถ้าฉันมีขนาดตัวอย่าง 100 และฉันพยายามประเมินความแปรปรวนของค่าเฉลี่ย ฉันจะขอรับตัวอย่าง bootstrap หลายขนาด 100 จากขนาดตัวอย่างทั้งหมด 100 ได้อย่างไร ตัวอย่าง bootstrap เพียง 1 ตัวเท่านั้นที่เป็นไปได้ในกรณีนี้ซึ่งจะเทียบเท่ากับตัวอย่างดั้งเดิมใช่ไหม

เห็นได้ชัดว่าฉันเข้าใจอะไรบางอย่างที่ธรรมดามาก ๆ ผมเข้าใจว่าจำนวนของที่เหมาะตัวอย่างบูตอยู่เสมอไม่มีที่สิ้นสุดและเพื่อกำหนดจำนวนตัวอย่างบูตที่จำเป็นสำหรับข้อมูลของฉันฉันต้องทดสอบลู่รักษาความแม่นยำที่จำเป็นของฉันในใจ
แต่ฉันสับสนจริง ๆ เกี่ยวกับสิ่งที่ควรเป็นขนาดของตัวอย่างบูตแต่ละอัน


7
ด้านบนของ p 3 และภาพประกอบที่นั่นระบุอย่างชัดเจนและชัดเจนว่าการ resampling เป็นสิ่งทดแทน
whuber

แต่ถ้าขนาดตัวอย่าง bootstrap ของฉันเหมือนกับจำนวนการสังเกตทั้งหมดที่ฉันมีฉันจะแทนที่ด้วยอะไร
user1265125

ตัวอย่างที่ง่าย - ดังนั้นถ้าฉันมี 4,1,3,7,5 เป็นชุดตัวอย่างของฉัน ฉันจะสร้างตัวอย่าง bootstrap หลายขนาด 5 ได้อย่างไร ตัวอย่าง bootstrap ขนาด 5 เท่านั้นจะเป็น 4,1,3,7,5 เช่นชุดตัวอย่างดั้งเดิม
user1265125

1
โอ้ฉันเข้าใจแล้ว - "•เพื่อจำลองการกระจายตัวตัวอย่างเราสามารถเอาตัวอย่างสุ่มซ้ำ ๆ จาก" ประชากร "ที่ประกอบไปด้วยตัวอย่างจำนวนมาก"
user1265125

คำตอบ:


16

เงินทุนจะดำเนินการโดยการสุ่มตัวอย่างด้วยการเปลี่ยน ดูเหมือนว่าคำว่า "แทนที่" ไม่ชัดเจนสำหรับคุณ ดังที่บันทึกไว้โดยwhuberภาพประกอบของการสุ่มตัวอย่างด้วยการแทนที่จะได้รับใน p 3 ของกระดาษที่คุณอ้างถึง (ทำซ้ำด้านล่าง)

ภาพประกอบของการสุ่มตัวอย่างพร้อมการเปลี่ยน

(ที่มา: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

แนวคิดทั่วไปของการสุ่มตัวอย่างด้วยการแทนที่คือกรณีใด ๆ สามารถสุ่มตัวอย่างได้หลายครั้ง (หินอ่อนสีเขียวในภาพแรกด้านบน; หินอ่อนสีฟ้าและสีม่วงในภาพสุดท้าย) หากคุณต้องการจินตนาการถึงกระบวนการนี้ลองนึกถึงชามที่เต็มไปด้วยหินอ่อนสีสดใส สมมติว่าคุณต้องการวาดหินอ่อนจำนวนหนึ่งจากชามนี้ หากคุณสุ่มตัวอย่างโดยไม่มีการแทนที่คุณก็แค่เอาหินอ่อนออกจากชามแล้ววางชิ้นตัวอย่างไว้ หากคุณสุ่มตัวอย่างด้วยการเปลี่ยนคุณจะสุ่มตัวอย่างหินอ่อนแบบหนึ่งต่อหนึ่งโดยการเอาหินอ่อนหนึ่งใบออกจากชามแล้วลงชื่อสีของมันลงในสมุดบันทึกของคุณแล้วคืนกลับไปที่ชาม ดังนั้นเมื่อสุ่มตัวอย่างด้วยการเปลี่ยนหินอ่อนเดียวกันสามารถสุ่มตัวอย่างได้หลายครั้ง

ดังนั้นเมื่อสุ่มตัวอย่างโดยไม่มีการเปลี่ยนคุณสามารถสุ่มตัวอย่างหินอ่อนออกจากชามที่มีหินอ่อนในขณะที่ในกรณีของการสุ่มตัวอย่างด้วยการแทนที่คุณสามารถสุ่มตัวอย่างจำนวนหินอ่อนใด ๆ (ยิ่งใหญ่กว่า ) จากประชากร จำกัด หากคุณตัวอย่างจากหินอ่อนโดยไม่ต้องทดแทนคุณจะจบลงด้วยตรงตัวอย่างเดียว แต่เพื่อสับ หากคุณตัวอย่างจากหินอ่อนที่มีการเปลี่ยนทุกครั้งที่คุณอาจจะสามารถลิ้มลองที่แตกต่างกันของหินอ่อนnnnnnnn

มีวิธีสุ่มตัวอย่างโดยไม่มีการเปลี่ยนเคสจากจำนวนประชากรที่มีขนาดและวิธีสุ่มตัวอย่างด้วยการแทนที่ หากคุณต้องการอ่านเพิ่มเติมเกี่ยวกับคณิตศาสตร์เบื้องหลังคุณสามารถตรวจสอบข้อ2.1 บทCombinatoricsของคู่มือเบื้องต้นความน่าจะเป็นออนไลน์โดย Hossein Pishro-Nik นอกจากนี้ยังมีสูตรโกงที่มีประโยชน์ในหน้าWolframMathWorld(nk)kn(n+k1k)


0

เราควรสังเกตตัวอย่างอีกกี่ครั้ง คำแนะนำที่ดีคือขนาดตัวอย่างดั้งเดิม

เมื่อขนาดตัวอย่างดั้งเดิมมีขนาดใหญ่เกินไปและคุณไม่ต้องการ / ไม่สามารถฝึกอบรมแบบจำลองบนชุดข้อมูลแบบเต็ม "คำแนะนำที่ดี" นั้นไม่ดีนัก

PS: ฉันต้องการเพิ่มความคิดเห็นนี้เป็นคำถาม แต่ฉันไม่ได้รับอนุญาตให้เพิ่มความคิดเห็น ...


1
ทำไมคุณต้องการเพิ่มคำแนะนำนี้ หากนี่เป็นเพราะชุดข้อมูลมีขนาดใหญ่เกินไปสำหรับความพยายามในการคำนวณเป็นประจำนั่นเป็นปัญหาในทางปฏิบัติที่เกี่ยวข้อง แต่มันไม่ได้นำไปใช้กับทฤษฎีการบูตสแตรปที่ถูกตั้งคำถามที่นี่ นอกจากนี้ยังเกี่ยวกับการประมาณความแปรปรวนของสถิติตัวอย่าง นั่นเกี่ยวข้องกับการฝึกอบรมแบบจำลองหรือไม่? (NB. เพื่อไม่ให้หยาบคายฉันเข้าใจว่าคุณยังไม่สามารถโพสต์ความคิดเห็นได้ แต่นั่นไม่ได้เป็นการปลดปล่อยคุณจากการให้คำตอบที่เกี่ยวข้องเมื่อโพสต์เช่นคุณต้องชัดเจนมากขึ้นหรือโพสต์คำถามของคุณเอง)
IWS
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.