การกำหนดขนาดตัวอย่างที่จำเป็นสำหรับวิธี bootstrap / วิธีการเสนอ


33

ฉันรู้ว่านี่เป็นหัวข้อที่ค่อนข้างร้อนแรงซึ่งไม่มีใครสามารถให้คำตอบง่ายๆได้ อย่างไรก็ตามฉันสงสัยว่าวิธีการต่อไปนี้ไม่มีประโยชน์หรือไม่

วิธีบู๊ตสแตรปจะมีประโยชน์ก็ต่อเมื่อตัวอย่างของคุณติดตามการกระจายตัวมากหรือน้อยเช่นเดียวกับประชากรดั้งเดิม เพื่อให้แน่ใจว่าเป็นกรณีนี้คุณต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่พอ แต่อะไรที่ใหญ่พอ?

หากหลักฐานของฉันถูกต้องคุณมีปัญหาเดียวกันเมื่อใช้ทฤษฎีบทขีด จำกัด กลางเพื่อกำหนดค่าเฉลี่ยประชากร เฉพาะเมื่อขนาดตัวอย่างของคุณมีขนาดใหญ่พอคุณสามารถมั่นใจได้ว่าประชากรของค่าเฉลี่ยตัวอย่างของคุณมีการกระจายตามปกติ (รอบค่าเฉลี่ยประชากร) กล่าวอีกนัยหนึ่งตัวอย่างของคุณต้องแสดงถึงประชากรของคุณ (การกระจาย) ที่เพียงพอ แต่อีกครั้งสิ่งที่มีขนาดใหญ่พอ?

ในกรณีของฉัน (กระบวนการบริหาร: เวลาที่ต้องการเพื่อให้เสร็จสิ้นความต้องการเทียบกับปริมาณความต้องการ) ฉันมีประชากรที่มีการกระจายแบบหลายคำกริยา (ความต้องการทั้งหมดที่เสร็จสิ้นในปี 2554) ซึ่งฉันมั่นใจ 99% ว่ามันน้อยลง กระจายตามปกติมากกว่าประชากร (ความต้องการทั้งหมดที่เสร็จสิ้นระหว่างวันที่ปัจจุบันและวันที่ผ่านมานึกคิดช่วงเวลานี้มีขนาดเล็กที่สุดเท่าที่เป็นไปได้) ฉันต้องการวิจัย

ประชากร 2,011 ของฉันที่มีอยู่ออกมาจากหน่วยพอที่จะทำให้ตัวอย่างขนาดตัวอย่างnฉันเลือกค่า สมมติว่า ( ) ตอนนี้ฉันใช้การลองผิดลองถูกเพื่อกำหนดขนาดตัวอย่างที่ดี ฉันใช้และดูว่าประชากรเฉลี่ยตัวอย่างของฉันกระจายโดยใช้ Kolmogorov-Smirnov หรือไม่ ถ้าเป็นเช่นนั้นฉันจะทำซ้ำขั้นตอนเดียวกัน แต่มีขนาดตัวอย่างถ้าไม่ทำซ้ำด้วยขนาดตัวอย่าง (ฯลฯ )xnx10x=10n=504060

หลังจากที่ในขณะที่ฉันสรุปว่าเป็นขนาดตัวอย่างขั้นต่ำที่แน่นอนเพื่อให้ได้เป็นตัวแทนที่ดีของประชากร 2011 ของฉัน เนื่องจากฉันรู้ว่าประชากรที่ฉันสนใจ (ความต้องการทั้งหมดที่ดำเนินการเสร็จระหว่างวันปัจจุบันและวันหนึ่งในอดีต) มีความแปรปรวนน้อยกว่าฉันจึงสามารถใช้ขนาดตัวอย่างที่เพื่อ bootstrap ได้อย่างปลอดภัย (ทางอ้อมกำหนดขนาดของไทม์สแปนของฉัน: เวลาที่ต้องใช้ในการทำตามความต้องการครั้ง)n=45n=45n=4545

นี่คือความคิดของฉัน แต่เนื่องจากฉันไม่ได้เป็นนักสถิติ แต่เป็นวิศวกรที่มีบทเรียนสถิติเกิดขึ้นในยุคที่ฉันไม่สามารถแยกความเป็นไปได้ที่ฉันเพิ่งสร้างขยะจำนวนมาก :-) พวกคุณคิดอย่างไร หากหลักฐานของฉันสมเหตุสมผลฉันต้องเลือกใหญ่กว่าหรือเล็กกว่านี้หรือไม่? ขึ้นอยู่กับคำตอบของคุณ (ฉันต้องรู้สึกอายหรือไม่? :-) ฉันจะโพสต์แนวคิดการสนทนาเพิ่มเติมx10

การตอบสนองต่อคำตอบแรกขอบคุณสำหรับการตอบคำตอบของคุณเป็นประโยชน์อย่างมากกับฉันโดยเฉพาะลิงก์หนังสือ
แต่ฉันกลัวว่าในความพยายามที่จะให้ข้อมูลฉันก็ทำให้คำถามของฉันเต็มไปด้วยความสับสน ฉันรู้ว่าตัวอย่าง bootstrap เข้าควบคุมการกระจายตัวอย่างประชากร ฉันติดตามคุณอย่างสมบูรณ์ แต่ ...

ตัวอย่างประชากรดั้งเดิมของคุณจำเป็นต้องมีขนาดใหญ่พอที่จะแน่ใจได้พอสมควรว่าการกระจายตัวอย่างประชากรของคุณสอดคล้อง (เท่ากับ) กับการกระจายตัวของประชากร 'ของจริง'

นี่เป็นเพียงแนวคิดเกี่ยวกับวิธีกำหนดขนาดตัวอย่างดั้งเดิมที่มีขนาดใหญ่ของคุณเพื่อให้แน่ใจว่าการกระจายตัวอย่างนั้นสอดคล้องกับการกระจายประชากร

สมมติว่าคุณมีการกระจายตัวของประชากรแบบ bimodal และอีกหนึ่งอันดับแรกมีขนาดใหญ่กว่าอีกอันหนึ่ง หากขนาดตัวอย่างของคุณคือ 5 โอกาสมีขนาดใหญ่ซึ่งทั้ง 5 หน่วยมีมูลค่าใกล้เคียงกับด้านบนขนาดใหญ่มาก (โอกาสที่จะโฆษณาสุ่มเลือกหน่วยที่มีขนาดใหญ่ที่สุด) ในกรณีนี้การกระจายตัวอย่างของคุณจะดูแบบโมโนโมดัล

ด้วยขนาดตัวอย่างร้อยโอกาสที่การกระจายตัวอย่างของคุณจะเป็น bimodal นั้นใหญ่กว่ามาก !! ปัญหาเกี่ยวกับการบูตสแตรปคือคุณมีเพียงตัวอย่างเดียวเท่านั้น (และคุณสร้างเพิ่มเติมจากตัวอย่างนั้น) หากการกระจายตัวอย่างไม่สอดคล้องกับการกระจายตัวของประชากรคุณกำลังมีปัญหา นี่เป็นเพียงแนวคิดที่จะทำให้โอกาสในการ 'กระจายตัวอย่างที่ไม่ดี' ต่ำที่สุดเท่าที่จะเป็นไปได้โดยไม่ต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่มาก

คำตอบ:


38

ฉันสนใจคำถามนี้เพราะเห็นคำว่า bootstrap และฉันเขียนหนังสือลงบน bootstrap ผู้คนมักจะถามว่า "ฉันต้องเก็บตัวอย่าง bootstrap จำนวนเท่าใดเพื่อให้ได้ผลการบูตแบบ Monte Carlo ที่ดี" คำตอบที่ฉันแนะนำสำหรับคำถามนั้นคือการเพิ่มขนาดเรื่อย ๆ จนกว่าคุณจะได้คอนเวอร์เจนซ์ ไม่มีหนึ่งหมายเลขที่เหมาะกับปัญหาทั้งหมด

nnnจากตัวอย่างดั้งเดิม ไม่ว่าหลักการบูตสแตรปจะไม่ได้ขึ้นอยู่กับกลุ่มตัวอย่างใด ๆ สิ่งที่มันจะขึ้นอยู่กับสิ่งที่คุณกำลังประเมินและคุณสมบัติบางอย่างของการกระจายประชากร (เช่นงานนี้สำหรับการสุ่มตัวอย่างหมายถึงการกระจายตัวของประชากรที่มีความแปรปรวนแน่นอน แต่ไม่ใช่เมื่อพวกมันมีความแปรปรวนไม่สิ้นสุด) มันจะไม่ทำงานสำหรับการประเมินความสุดขั้วโดยไม่คำนึงถึงการกระจายของประชากร

ทฤษฎีของ bootstrap เกี่ยวข้องกับการแสดงความมั่นคงของการประเมิน ดังนั้นมันสามารถแสดงให้เห็นในทางทฤษฎีว่ามันใช้ได้กับตัวอย่างขนาดใหญ่ แต่มันยังสามารถทำงานในกลุ่มตัวอย่างขนาดเล็ก ฉันได้เห็นว่ามันใช้งานได้สำหรับการประมาณค่าอัตราความผิดพลาดของการจำแนกโดยเฉพาะในกลุ่มตัวอย่างขนาดเล็กเช่น 20 สำหรับข้อมูล bivariate

ตอนนี้ถ้าขนาดตัวอย่างมีขนาดเล็กมาก - พูด 4 --- bootstrap อาจไม่ทำงานเพราะชุดของตัวอย่าง bootstrap ที่เป็นไปได้นั้นไม่มากพอ ในหนังสือของฉันหรือหนังสือของปีเตอร์ฮอลล์ฉบับนี้มีขนาดเล็กเกินไปกล่าวถึงตัวอย่างขนาด แต่ตัวอย่างของ bootstrap ที่แตกต่างกันนี้มีจำนวนมากอย่างรวดเร็ว ดังนั้นนี่ไม่ใช่ปัญหาสำหรับขนาดตัวอย่างที่เล็กถึง 8 คุณสามารถดูข้อมูลอ้างอิงเหล่านี้ได้:


3
มีการทดสอบมาตรฐานที่ใช้เพื่อตรวจสอบว่ามี (ตัวอย่าง 4 ตัวอย่าง) ไม่เพียงพอหรือไม่ ฉันมีชุดข้อมูลที่ฉันคำนวณช่วงความเชื่อมั่นในการบูตโดยเฉลี่ย แต่บางคนมีดาต้าพอยน์น้อยมาก (<8 ในบางกรณี) สัญชาตญาณของฉันบอกฉันว่าฉันควรเพิกเฉยต่อบุคคลที่มีจุดข้อมูลน้อยกว่า n จุด แต่แล้วฉันจะกำหนด cuttoff n นี้ได้อย่างไร ฉันหวังว่าจะพบค่า cutoff ที่ยอมรับโดยทั่วไป (คล้ายกับวิธีที่ 6 หรือ 7 เป็นจุดตัดโดยพลการสำหรับจำนวนตัวอย่างต่อกลุ่มในการวิเคราะห์แบบผสม)
RTbecard

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.