การทำ Bootstrapping นั้นทำขึ้นเพื่อให้ได้ภาพการกระจายตัวตัวอย่างที่มีประสิทธิภาพมากขึ้นกว่าที่ใช้ทฤษฎีตัวอย่างขนาดใหญ่ เมื่อคุณบู๊ตสแตรปไม่มีการ จำกัด จำนวนของ 'ตัวอย่างรองเท้า' ที่คุณใช้อย่างมีประสิทธิภาพ ในความเป็นจริงคุณจะได้ค่าประมาณการกระจายตัวตัวอย่างที่ดียิ่งขึ้น เป็นเรื่องปกติที่จะใช้ตัวอย่างแม้จะไม่มีอะไรมหัศจรรย์เกี่ยวกับหมายเลขนั้น นอกจากนี้คุณไม่ต้องทำการทดสอบกับรองเท้าบูท คุณมีค่าประมาณของการกระจายตัวตัวอย่าง - ใช้มันโดยตรง นี่คืออัลกอริทึม:B = 10 , 000
- ทำบูทตัวอย่างหนึ่งชุดข้อมูลโดยการสุ่มตัวอย่างการสังเกตการบู๊ตด้วยการแทนที่ [เกี่ยวกับความคิดเห็นด้านล่างคำถามหนึ่งที่เกี่ยวข้องคือสิ่งที่ถือเป็น 'การสังเกตการบู๊ต' ที่ถูกต้องที่จะใช้สำหรับรองเท้าบูทของคุณ ในความเป็นจริงมีหลายวิธีที่ถูกกฎหมาย; ฉันจะพูดถึงสองที่มีประสิทธิภาพและช่วยให้คุณสามารถสะท้อนโครงสร้างของข้อมูลของคุณ: เมื่อคุณมีข้อมูลเชิงสังเกต (เช่นข้อมูลถูกสุ่มตัวอย่างในทุกมิติการสังเกตการบู๊ตสามารถสั่งซื้อ n-tuple (เช่นแถว จากชุดข้อมูลของคุณ) ตัวอย่างเช่นหากคุณมีตัวแปรตัวทำนายหนึ่งตัวและตัวแปรตอบกลับหนึ่งตัวคุณจะลองตัวอย่างn 1 ( x , y ) n 1 j y j y Xn1n1 ( x , y)สั่งคู่ ในทางกลับกันเมื่อทำงานกับข้อมูลการทดลองค่าตัวแปรตัวทำนายไม่ได้ถูกสุ่มตัวอย่าง แต่หน่วยการทดลองถูกกำหนดให้อยู่ในระดับที่ต้องการของตัวแปรตัวทำนายแต่ละตัว ในกรณีเช่นนี้คุณจะได้ลิ้มลองค่าจากภายในแต่ละระดับของตัวแปรทำนายของคุณแล้วจับคู่ผู้ s มีค่าที่สอดคล้องกันของระดับทำนายว่า ในลักษณะนี้คุณจะไม่ทดลองใช้ ]n1 เจ YJYX
- พอดีกับโมเดลการถดถอยของคุณและเก็บค่าประมาณความชัน (เรียกว่า )β^1
- ใช้ตัวอย่างรองเท้าของชุดข้อมูลอื่นโดยการสุ่มตัวอย่างการสังเกตการบู๊ตพร้อมการเปลี่ยนn2
- พอดีกับโมเดลการถดถอยอื่น ๆ และจัดเก็บค่าประมาณความชัน (เรียกว่า )β^2
- จัดทำสถิติจากประมาณการสองข้อ (ข้อเสนอแนะ: ใช้ความแตกต่างของความชัน )β^1- β^2
- เก็บสถิติและดัมพ์ข้อมูลอื่นเพื่อไม่ให้หน่วยความจำเสีย
- ทำซ้ำขั้นตอนที่ 1 - 6,ครั้งB = 10 , 000
- จัดเรียงการกระจายการสุ่มตัวอย่าง bootstrapped ของความแตกต่างลาด
- คำนวณ% ของ bsd ที่ทับซ้อนกัน 0 (แล้วแต่จำนวนใดจะน้อยกว่าหางขวา% หรือหางซ้าย%)
- คูณเปอร์เซ็นต์นี้ด้วย 2
ตรรกะของอัลกอริทึมนี้เป็นการทดสอบทางสถิติคล้ายกับการทดสอบแบบดั้งเดิม (เช่นการทดสอบแบบที) แต่คุณไม่ได้สมมติว่าข้อมูลหรือการแจกแจงตัวอย่างที่เกิดขึ้นมีการแจกแจงเฉพาะใด ๆ (ตัวอย่างเช่นคุณไม่ได้ใช้เกณฑ์ปกติ) สมมติฐานหลักที่คุณทำคือข้อมูลของคุณเป็นตัวแทนของประชากรที่คุณสุ่มตัวอย่างจาก / ต้องการสรุปให้ นั่นคือการกระจายตัวอย่างมีความคล้ายคลึงกับการกระจายตัวของประชากร โปรดทราบว่าหากข้อมูลของคุณไม่เกี่ยวข้องกับประชากรที่คุณสนใจคุณก็จะโชคดี
บางคนกังวลเกี่ยวกับการใช้ตัวอย่างเช่นแบบจำลองการถดถอยเพื่อกำหนดความชันหากคุณไม่เต็มใจที่จะทำตามปกติ อย่างไรก็ตามความกังวลนี้ถูกเข้าใจผิด ทฤษฎีของเกาส์ - มาร์คอฟบอกเราว่าการประเมินนั้นไม่เอนเอียง (เช่นมีศูนย์กลางอยู่ที่มูลค่าที่แท้จริง) ดังนั้นมันจึงใช้ได้ การขาดกฎเกณฑ์เพียงอย่างเดียวนั้นหมายความว่าการกระจายตัวตัวอย่างที่แท้จริงอาจแตกต่างจากการวางตัวทางทฤษฎีอย่างใดอย่างหนึ่งและค่า p- ไม่ถูกต้อง ขั้นตอนการบูตสแตรปให้คุณจัดการกับปัญหานี้ได้
อีกสองประเด็นที่เกี่ยวข้องกับการบูตสแตรป: ถ้าพบสมมติฐานแบบดั้งเดิมการบู๊ตสแตรปจะมีประสิทธิภาพน้อยกว่า (เช่นมีกำลังน้อยกว่า) การทดสอบพาราเมตริก ประการที่สองการบูตสแตรปจะทำงานได้ดีที่สุดเมื่อคุณสำรวจใกล้กับศูนย์กลางของการกระจาย: หมายความว่าและคนมัธยฐานเป็นคนดีควอไทล์ไม่ดีนัก คุณอาจไม่จำเป็นต้องบู๊ตในสถานการณ์ของคุณ เกี่ยวกับจุดที่สองความลาดชันเป็นเรื่องปกติ