ฉันรู้ว่านี่เป็นหัวข้อที่ค่อนข้างร้อนแรงซึ่งไม่มีใครสามารถให้คำตอบง่ายๆได้ อย่างไรก็ตามฉันสงสัยว่าวิธีการต่อไปนี้ไม่มีประโยชน์หรือไม่
วิธีบู๊ตสแตรปจะมีประโยชน์ก็ต่อเมื่อตัวอย่างของคุณติดตามการกระจายตัวมากหรือน้อยเช่นเดียวกับประชากรดั้งเดิม เพื่อให้แน่ใจว่าเป็นกรณีนี้คุณต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่พอ แต่อะไรที่ใหญ่พอ?
หากหลักฐานของฉันถูกต้องคุณมีปัญหาเดียวกันเมื่อใช้ทฤษฎีบทขีด จำกัด กลางเพื่อกำหนดค่าเฉลี่ยประชากร เฉพาะเมื่อขนาดตัวอย่างของคุณมีขนาดใหญ่พอคุณสามารถมั่นใจได้ว่าประชากรของค่าเฉลี่ยตัวอย่างของคุณมีการกระจายตามปกติ (รอบค่าเฉลี่ยประชากร) กล่าวอีกนัยหนึ่งตัวอย่างของคุณต้องแสดงถึงประชากรของคุณ (การกระจาย) ที่เพียงพอ แต่อีกครั้งสิ่งที่มีขนาดใหญ่พอ?
ในกรณีของฉัน (กระบวนการบริหาร: เวลาที่ต้องการเพื่อให้เสร็จสิ้นความต้องการเทียบกับปริมาณความต้องการ) ฉันมีประชากรที่มีการกระจายแบบหลายคำกริยา (ความต้องการทั้งหมดที่เสร็จสิ้นในปี 2554) ซึ่งฉันมั่นใจ 99% ว่ามันน้อยลง กระจายตามปกติมากกว่าประชากร (ความต้องการทั้งหมดที่เสร็จสิ้นระหว่างวันที่ปัจจุบันและวันที่ผ่านมานึกคิดช่วงเวลานี้มีขนาดเล็กที่สุดเท่าที่เป็นไปได้) ฉันต้องการวิจัย
ประชากร 2,011 ของฉันที่มีอยู่ออกมาจากหน่วยพอที่จะทำให้ตัวอย่างขนาดตัวอย่างnฉันเลือกค่า สมมติว่า ( ) ตอนนี้ฉันใช้การลองผิดลองถูกเพื่อกำหนดขนาดตัวอย่างที่ดี ฉันใช้และดูว่าประชากรเฉลี่ยตัวอย่างของฉันกระจายโดยใช้ Kolmogorov-Smirnov หรือไม่ ถ้าเป็นเช่นนั้นฉันจะทำซ้ำขั้นตอนเดียวกัน แต่มีขนาดตัวอย่างถ้าไม่ทำซ้ำด้วยขนาดตัวอย่าง (ฯลฯ )
หลังจากที่ในขณะที่ฉันสรุปว่าเป็นขนาดตัวอย่างขั้นต่ำที่แน่นอนเพื่อให้ได้เป็นตัวแทนที่ดีของประชากร 2011 ของฉัน เนื่องจากฉันรู้ว่าประชากรที่ฉันสนใจ (ความต้องการทั้งหมดที่ดำเนินการเสร็จระหว่างวันปัจจุบันและวันหนึ่งในอดีต) มีความแปรปรวนน้อยกว่าฉันจึงสามารถใช้ขนาดตัวอย่างที่เพื่อ bootstrap ได้อย่างปลอดภัย (ทางอ้อมกำหนดขนาดของไทม์สแปนของฉัน: เวลาที่ต้องใช้ในการทำตามความต้องการครั้ง)
นี่คือความคิดของฉัน แต่เนื่องจากฉันไม่ได้เป็นนักสถิติ แต่เป็นวิศวกรที่มีบทเรียนสถิติเกิดขึ้นในยุคที่ฉันไม่สามารถแยกความเป็นไปได้ที่ฉันเพิ่งสร้างขยะจำนวนมาก :-) พวกคุณคิดอย่างไร หากหลักฐานของฉันสมเหตุสมผลฉันต้องเลือกใหญ่กว่าหรือเล็กกว่านี้หรือไม่? ขึ้นอยู่กับคำตอบของคุณ (ฉันต้องรู้สึกอายหรือไม่? :-) ฉันจะโพสต์แนวคิดการสนทนาเพิ่มเติม
การตอบสนองต่อคำตอบแรกขอบคุณสำหรับการตอบคำตอบของคุณเป็นประโยชน์อย่างมากกับฉันโดยเฉพาะลิงก์หนังสือ
แต่ฉันกลัวว่าในความพยายามที่จะให้ข้อมูลฉันก็ทำให้คำถามของฉันเต็มไปด้วยความสับสน ฉันรู้ว่าตัวอย่าง bootstrap เข้าควบคุมการกระจายตัวอย่างประชากร ฉันติดตามคุณอย่างสมบูรณ์ แต่ ...
ตัวอย่างประชากรดั้งเดิมของคุณจำเป็นต้องมีขนาดใหญ่พอที่จะแน่ใจได้พอสมควรว่าการกระจายตัวอย่างประชากรของคุณสอดคล้อง (เท่ากับ) กับการกระจายตัวของประชากร 'ของจริง'
นี่เป็นเพียงแนวคิดเกี่ยวกับวิธีกำหนดขนาดตัวอย่างดั้งเดิมที่มีขนาดใหญ่ของคุณเพื่อให้แน่ใจว่าการกระจายตัวอย่างนั้นสอดคล้องกับการกระจายประชากร
สมมติว่าคุณมีการกระจายตัวของประชากรแบบ bimodal และอีกหนึ่งอันดับแรกมีขนาดใหญ่กว่าอีกอันหนึ่ง หากขนาดตัวอย่างของคุณคือ 5 โอกาสมีขนาดใหญ่ซึ่งทั้ง 5 หน่วยมีมูลค่าใกล้เคียงกับด้านบนขนาดใหญ่มาก (โอกาสที่จะโฆษณาสุ่มเลือกหน่วยที่มีขนาดใหญ่ที่สุด) ในกรณีนี้การกระจายตัวอย่างของคุณจะดูแบบโมโนโมดัล
ด้วยขนาดตัวอย่างร้อยโอกาสที่การกระจายตัวอย่างของคุณจะเป็น bimodal นั้นใหญ่กว่ามาก !! ปัญหาเกี่ยวกับการบูตสแตรปคือคุณมีเพียงตัวอย่างเดียวเท่านั้น (และคุณสร้างเพิ่มเติมจากตัวอย่างนั้น) หากการกระจายตัวอย่างไม่สอดคล้องกับการกระจายตัวของประชากรคุณกำลังมีปัญหา นี่เป็นเพียงแนวคิดที่จะทำให้โอกาสในการ 'กระจายตัวอย่างที่ไม่ดี' ต่ำที่สุดเท่าที่จะเป็นไปได้โดยไม่ต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่มาก