อธิบายให้คนทั่วไปเห็นว่าทำไมการบูตสแตรปทำงานได้ดี


326

ฉันเพิ่งใช้ bootstrapping เพื่อประเมินช่วงความมั่นใจสำหรับโครงการ บางคนที่ไม่ทราบเกี่ยวกับสถิติมากนักเมื่อเร็ว ๆ นี้ขอให้ฉันอธิบายว่าเพราะเหตุใด bootstrapping จึงใช้งานได้เช่นเหตุใดการสุ่มตัวอย่างตัวอย่างซ้ำไปซ้ำมาจึงให้ผลลัพธ์ที่ดี ฉันรู้ว่าถึงแม้ว่าฉันจะใช้เวลามากมายในการทำความเข้าใจวิธีการใช้ แต่ฉันก็ไม่เข้าใจว่าทำไมการบูตสแตรป

โดยเฉพาะ: ถ้าเราสุ่มตัวอย่างจากตัวอย่างของเรามันเป็นอย่างไรที่เรากำลังเรียนรู้บางอย่างเกี่ยวกับประชากรมากกว่าเพียงแค่ตัวอย่าง ดูเหมือนว่าจะมีการกระโดดที่นั่นซึ่งค่อนข้างเคาน์เตอร์ง่าย

ฉันได้พบคำตอบของคำถามนี้ที่ฉันเข้าใจครึ่ง โดยเฉพาะอย่างยิ่งคนนี้ ฉันเป็นสถิติ "ผู้บริโภค" ไม่ใช่นักสถิติและฉันทำงานกับคนที่รู้สถิติน้อยกว่าฉันมาก ดังนั้นใครบางคนสามารถอธิบายได้โดยมีการอ้างอิงอย่างน้อยที่สุดเกี่ยวกับทฤษฎีบท ฯลฯ เหตุผลพื้นฐานที่อยู่เบื้องหลัง bootstrap? นั่นคือถ้าคุณต้องอธิบายให้เพื่อนบ้านฟังคุณจะพูดว่าอย่างไร


13
(+1) คุณอาจพูดถึงคำถามสั้น ๆ ที่คุณดู แต่ก็ไม่ได้ทำให้คุณพึงพอใจ มีคำถามมากมายใน bootstrap ที่นี่ :)
สำคัญ

@ cardinal ขอบคุณฉันอัปเดตโพสต์ดั้งเดิม หวังว่ามันชัดเจนยิ่งขึ้น :)
Alan H.

5
สิ่งหนึ่งที่ควรทราบ - การบูตสแตรปไม่ทำงานอย่างง่ายดายสำหรับข้อมูลที่มีโครงสร้างแบบลำดับชั้น - เช่นโมเดลหลายระดับและการออกแบบการสุ่มตัวอย่างแบบหลายขั้นตอน สับสนมากที่จะรู้ว่า "bootstrap ใด" ที่คุณควรใช้
ความน่าจะเป็นทาง

2
โดยทั่วไป bootstrap ทำงานได้เพราะมันเป็นโอกาสสูงสุดที่ไม่ใช่พารามิเตอร์ ดังนั้นเมื่อมีปัญหากับโอกาสสูงสุดคุณสามารถคาดหวังปัญหากับ bootstrap
kjetil b halvorsen

3
Jake VanderPlas ได้พูดคุยที่ยอดเยี่ยมที่ PyCon 16 เกี่ยวกับการบูตสแตรปและเทคนิคที่เกี่ยวข้องอื่น ๆ ดูภาพนิ่งเริ่มต้นที่ 71 ภาพนิ่งและบันทึกวิดีโอ
THM

คำตอบ:


198

fwiw รุ่นความยาวปานกลางที่ฉันมักจะให้ไปเช่นนี้:

คุณต้องการถามคำถามของประชากร แต่คุณทำไม่ได้ คุณลองสุ่มตัวอย่างแล้วถามคำถามแทน ทีนี้คุณมั่นใจได้อย่างไรว่าคำตอบตัวอย่างใกล้เคียงกับคำตอบของประชากรขึ้นอยู่กับโครงสร้างของประชากร วิธีหนึ่งที่คุณอาจเรียนรู้เกี่ยวกับสิ่งนี้คือนำตัวอย่างจากประชากรซ้ำแล้วซ้ำเล่าถามคำถามและดูว่าคำตอบตัวอย่างมีแนวโน้มที่จะเป็นอย่างไร เนื่องจากสิ่งนี้เป็นไปไม่ได้คุณสามารถตั้งสมมติฐานบางอย่างเกี่ยวกับรูปร่างของประชากรหรือคุณสามารถใช้ข้อมูลในตัวอย่างที่คุณต้องเรียนรู้จริง

ลองนึกภาพคุณตัดสินใจที่จะตั้งสมมติฐานเช่นเป็นเรื่องปกติหรือเบอร์นูลลีหรือนิยายที่สะดวกอื่น การติดตามกลยุทธ์ก่อนหน้านี้คุณสามารถเรียนรู้อีกครั้งว่าคำตอบสำหรับคำถามของคุณเมื่อถามตัวอย่างอาจแตกต่างกันไปขึ้นอยู่กับตัวอย่างที่คุณได้รับโดยการสร้างตัวอย่างที่มีขนาดเดียวกันซ้ำกับขนาดที่คุณมีและถามพวกเขาซ้ำ ๆ คำถาม. นั่นจะตรงไปตรงมาจนถึงขอบเขตที่คุณเลือกสมมติฐานที่สะดวกสบายในการคำนวณ ( โดยเฉพาะอย่างยิ่งข้อสันนิษฐานที่สะดวกสบายบวกกับคณิตศาสตร์ที่ไม่สำคัญอาจอนุญาตให้คุณข้ามส่วนการสุ่มตัวอย่างทั้งหมด แต่เราจะเพิกเฉยต่อเรื่องนี้โดยเจตนา)

ดูเหมือนว่าเป็นความคิดที่ดีหากคุณมีความสุขที่จะตั้งสมมติฐาน ลองนึกภาพคุณไม่ได้ ทางเลือกคือใช้ตัวอย่างที่คุณมีและตัวอย่างจากมันแทน คุณสามารถทำเช่นนี้ได้เพราะตัวอย่างที่คุณมีก็คือประชากรเพียงตัวอย่างเล็ก ๆ ที่ไม่ต่อเนื่อง ดูเหมือนว่าฮิสโตแกรมของข้อมูลของคุณ การสุ่มตัวอย่างด้วยการแทนที่เป็นเพียงวิธีที่สะดวกในการรักษาตัวอย่างเช่นประชากรและตัวอย่างจากวิธีที่สะท้อนรูปร่างของมัน

นี่เป็นสิ่งที่สมเหตุสมผลที่ต้องทำเพราะไม่เพียง แต่เป็นตัวอย่างที่คุณมีดีที่สุดแน่นอนข้อมูลเดียวที่คุณมีเกี่ยวกับสิ่งที่ประชากรดูเหมือนจริง แต่ยังเป็นเพราะกลุ่มตัวอย่างส่วนใหญ่จะถ้าพวกเขาเลือกแบบสุ่มดูเหมือนว่า ประชากรที่มาจาก ดังนั้นเป็นไปได้ว่าคุณก็ทำเช่นกัน

สำหรับสัญชาตญาณมันเป็นสิ่งสำคัญที่จะคิดเกี่ยวกับวิธีที่คุณสามารถเรียนรู้เกี่ยวกับความแปรปรวนโดยการรวบรวมข้อมูลตัวอย่างที่สร้างขึ้นในรูปแบบต่างๆและในสมมติฐานต่างๆ การเพิกเฉยต่อความเป็นไปได้ของการแก้ปัญหาทางคณิตศาสตร์แบบปิดอย่างสมบูรณ์เป็นสิ่งสำคัญที่จะต้องเข้าใจอย่างชัดเจน


5
คำตอบที่ดี ฉันชอบย่อหน้าสุดท้าย
Peter Flom

19
(+1) นี่เป็นคำตอบที่ดี ฉันคิดว่าอาจมีวิธีที่จะดึงประเด็นที่สำคัญออกไปได้อีก ในทางที่ปกติ bootstrap จะดำเนินการมีสองลักษณะพิเศษที่เกิดขึ้น อันดับแรกเราแสร้งว่าตัวอย่างที่เราได้รับนั้นเป็นตัวแทนสำหรับประชากรของเรา นี่คือสิ่งที่ควรทำในนามในกรณีที่ขนาดตัวอย่างของเรามีขนาดใหญ่พอสมควร อย่างไรก็ตามเรามักจะมีเวลาที่ยากลำบากในการคำนวณจำนวนดอกเบี้ยที่เกิดขึ้นจริงจากการกระจายการแกล้ง ดังนั้นเราต้องประมาณค่าพวกมันและนี่คือสาเหตุที่เราวาดตัวอย่าง bootstrap จำนวนมาก ถ้าเราทำได้ ... / ...
พระคาร์ดินัล

11
... / ... คำนวณปริมาณความสนใจโดยตรงสำหรับการกระจายแบบหลอกเราต้องการทำเช่นนั้น และนั่นจะเป็นbootstrap จริง แต่โดยปกติเราไม่สามารถทำได้ดังนั้นเราจึงลดการต้องสุ่มใหม่แทน
พระคาร์ดินัล

8
@ naught101: "มีขนาดใหญ่พอสมควร" สามารถวัดปริมาณได้ค่อนข้างดีโดยความไม่เท่าเทียม DKW (ถ้าคุณต้องการคุณสามารถดูคำตอบของฉันในลิงค์ในคำถามของ OP) และขึ้นอยู่กับจำนวนมากขึ้นอยู่กับสถิติตัวอย่างที่น่าสนใจ แต่ถ้าเรามีตัวอย่างบูตแล้วด้วยง่าย Monte Carlo เรารู้ว่าข้อผิดพลาดมาตรฐานคือการสั่งซื้อประมาณ1/2}) O ( B - 1 / 2 )BO(B1/2)
พระคาร์ดินัล

4
@cardinal: ความคิดเห็นดี หลายคนคิดว่า bootstrap และ resampling เป็นสิ่งเดียวกันเมื่ออันที่จริงแล้วหลังเป็นเครื่องมือที่ใช้สำหรับอดีต ความเข้าใจผิดที่คล้ายกันคือผู้ใช้สถิติหลายคนมักจะทำให้การวิเคราะห์ MCMC และ Bayesian สับสน
MånsT

122

+1 ถึง @ConjugatePrior ฉันเพียงต้องการแสดงจุดหนึ่งซึ่งเป็นนัยในคำตอบของเขา คำถามถามว่า "ถ้าเราสุ่มตัวอย่างจากตัวอย่างเราจะเรียนรู้อะไรบางอย่างเกี่ยวกับประชากรมากกว่าแค่ตัวอย่าง?" การ Resampling อีกครั้งไม่ได้จัดทำประมาณการการกระจายตัวของประชากร - เรานำตัวอย่างของเรามาเป็นแบบจำลองของประชากร ค่อนข้างการ resampling ทำเพื่อให้การประมาณการของการกระจายตัวอย่างของสถิติตัวอย่างในคำถาม


10
(+1) นี่ใกล้กับจุดที่ฉันพยายามแสดงความคิดเห็นต่อคำตอบของ ConjugatePrior แม้ว่าคุณจะระบุไว้อย่างชัดเจนและชัดเจนยิ่งขึ้น ในกรณีพิเศษบางอย่างเราสามารถคำนวณการกระจายตัวอย่างของสถิติทดสอบตรงภายใต้การจัดจำหน่ายเชิงประจักษ์ที่ได้จากกลุ่มตัวอย่าง แต่โดยปกติเราไม่สามารถทำได้ดังนั้นเราจึงถูกบังคับให้จำลองสถานการณ์ :)
พระคาร์ดินัล

7
ฉันเห็นดังนั้นถ้าฉันเข้าใจคุณเทคนิคนี้จะถือว่ากลุ่มตัวอย่างเป็นแบบจำลองที่เพียงพอของประชากรและดังนั้นการสุ่มตัวอย่างใหม่ในระดับที่มากพอที่จะเปิดเผยบางอย่างเกี่ยวกับประชากร แต่เท่าที่ ตัวอย่างดั้งเดิมเป็นสิ่งที่ดี ตอนนี้ฉันพูดแบบนั้นดูเหมือนจะชัดเจนแล้ว ...
อลันเอช

4
@ AlanH. ฉันแค่ต้องการเปลี่ยน "... จะเปิดเผยบางอย่างเกี่ยวกับประชากร " เป็น "... จะเปิดเผยบางสิ่งเกี่ยวกับการกระจายตัวตัวอย่าง " (จากสถิติที่เป็นปัญหาเช่นค่าเฉลี่ย) แต่ใช่คุณมีมัน
gung

คุณถูกต้องแน่นอน โดยส่วนตัวแล้วสำหรับเหตุผลทางการสอนฉันบันทึกประเด็นนี้ไว้สำหรับ 'รุ่นที่ยาวขึ้น' ของฉันเพราะในผู้ชมของฉันโดยเฉพาะจุดนี้มีแนวโน้มที่จะทำให้คนที่อายุน้อยกว่าและยังคงสัญชาตญาณไม่สมดุลถ้าปรับใช้เร็วเกินไป
ผัน

3
@ErosRam, bootstrapping คือการพิจารณาการกระจายตัวตัวอย่างของบางสิ่งบางอย่าง คุณสามารถทำได้สำหรับสถิติตัวอย่าง (เช่นเปอร์เซ็นไทล์ที่ 56) หรือสถิติการทดสอบ (t) เป็นต้นในทวินามทวินามของฉันการแจกแจงการสุ่มตัวอย่างจะเป็น 0 หัว - 25% 1 หัว - 50% 2 หัว - 25% นี่เป็นตัวอย่างที่ชัดเจนโดยไม่มีการสุ่มตัวอย่างใหม่ พระคาร์ดินัลมีความคิดเห็นบางแห่งที่อธิบายสิ่งนี้ (คำตอบที่ดีที่สุดหลายข้อในเว็บไซต์คือความคิดเห็นของพระคาร์ดินัล) แต่มันยากที่จะหา b / c มันเป็นความคิดเห็น
gung

43

นี่อาจเป็นคำอธิบายทางเทคนิคเพิ่มเติมสำหรับผู้ที่เข้าใจสถิติและคณิตศาสตร์ (แคลคูลัสอย่างน้อย) นี่คือสไลด์จากหลักสูตรใน bootstraps สำรวจที่ฉันสอนบางขณะที่ผ่านมา:

หลักการบูตสแตรป

TE[X]=xdFFn()dFF()TθFn()Tθ^nθθ^nθ

หากเราสามารถทำซ้ำขั้นตอนการสุ่มตัวอย่างของเราได้เราจะได้การแจกแจงนั้นและเรียนรู้เพิ่มเติม นั่นก็มักจะเกินความสามารถของเรา อย่างไรก็ตามหาก

  1. FnF
  2. TF()θ

Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

θ^nθ^n

TFnFθ^nθ^nθ^nθF

nnθ^nθθ^n(r)θ^nθ^n


7
คำตอบนี้พลาดจุดที่ผู้ชมทั่วไปสามารถเข้าถึงได้อย่างสมบูรณ์
Tripartio

20

ฉันกำลังตอบคำถามนี้เพราะฉันยอมรับว่านี่เป็นเรื่องยากที่จะทำและมีความเข้าใจผิดมากมาย Efron และ Diaconis พยายามทำเช่นนั้นในบทความ 1983 Scientific American และในมุมมองของฉันพวกเขาล้มเหลว ตอนนี้มีหนังสือหลายเล่มที่อุทิศให้กับรองเท้าบู๊ตที่ทำผลงานได้ดี Efron และ Tibshirani ทำงานได้ดีมากในบทความของพวกเขาใน Science Science ในปี 1986 ฉันพยายามอย่างหนักเป็นพิเศษที่จะทำให้ bootstrap เข้าถึงได้โดยผู้ปฏิบัติงานในหนังสือวิธีการ bootstrap ของฉันและคำแนะนำของฉันเกี่ยวกับ bootstrap . Tim Hesterberg เขียนบทเสริมที่ยอดเยี่ยมให้กับหนึ่งในหนังสือสถิติเบื้องต้นของ David Moore Clifford Lunneborg มีหนังสือที่ดี Chihara และ Hesterberg เพิ่งเปิดตัวสมุดสถิติทางคณิตศาสตร์ระดับกลางที่ครอบคลุม bootstrap และวิธี resampling อื่น ๆ แม้แต่หนังสือขั้นสูงเช่น Lahiri หรือ Shao และ Tu ก็ให้คำอธิบายที่ดี Manly ทำได้ดีกับหนังสือของเขาที่ครอบคลุมการเรียงสับเปลี่ยนและ bootstrap ไม่มีเหตุผลที่จะสับสนเกี่ยวกับ bootstrap อีกต่อไป สิ่งสำคัญที่ต้องจำไว้คือ bootstrap ขึ้นอยู่กับหลักการ bootstrap "การสุ่มตัวอย่างด้วยการแทนที่พฤติกรรมบนตัวอย่างดั้งเดิมในลักษณะที่ตัวอย่างดั้งเดิมทำงานกับประชากรมีตัวอย่างที่หลักการนี้ล้มเหลวเป็นสิ่งสำคัญที่จะต้องรู้ว่า bootstrap ไม่ใช่คำตอบสำหรับทุกปัญหาทางสถิติ ให้คำอธิบายเชิงแนวคิดที่ดี Manly ทำได้ดีกับหนังสือของเขาที่ครอบคลุมการเรียงสับเปลี่ยนและ bootstrap ไม่มีเหตุผลที่จะสับสนเกี่ยวกับ bootstrap อีกต่อไป สิ่งสำคัญที่ต้องจำไว้คือ bootstrap ขึ้นอยู่กับหลักการ bootstrap "การสุ่มตัวอย่างด้วยการแทนที่พฤติกรรมบนตัวอย่างดั้งเดิมในลักษณะที่ตัวอย่างดั้งเดิมทำงานกับประชากรมีตัวอย่างที่หลักการนี้ล้มเหลวเป็นสิ่งสำคัญที่จะต้องรู้ว่า bootstrap ไม่ใช่คำตอบสำหรับทุกปัญหาทางสถิติ ให้คำอธิบายเชิงแนวคิดที่ดี Manly ทำได้ดีกับหนังสือของเขาที่ครอบคลุมการเรียงสับเปลี่ยนและ bootstrap ไม่มีเหตุผลที่จะสับสนเกี่ยวกับ bootstrap อีกต่อไป สิ่งสำคัญที่ต้องจำไว้คือ bootstrap ขึ้นอยู่กับหลักการ bootstrap "การสุ่มตัวอย่างด้วยการแทนที่พฤติกรรมบนตัวอย่างดั้งเดิมในลักษณะที่ตัวอย่างดั้งเดิมทำงานกับประชากรมีตัวอย่างที่หลักการนี้ล้มเหลวเป็นสิ่งสำคัญที่จะต้องรู้ว่า bootstrap ไม่ใช่คำตอบสำหรับทุกปัญหาทางสถิติ การสุ่มตัวอย่างด้วยการแทนที่การทำงานบนตัวอย่างดั้งเดิมในลักษณะที่ตัวอย่างดั้งเดิมมีต่อประชากร มีตัวอย่างที่หลักการนี้ล้มเหลว สิ่งสำคัญคือต้องรู้ว่า bootstrap ไม่ใช่คำตอบของปัญหาทางสถิติทุกอย่าง การสุ่มตัวอย่างด้วยการแทนที่การทำงานบนตัวอย่างดั้งเดิมในลักษณะที่ตัวอย่างดั้งเดิมมีต่อประชากร มีตัวอย่างที่หลักการนี้ล้มเหลว สิ่งสำคัญคือต้องรู้ว่า bootstrap ไม่ใช่คำตอบของปัญหาทางสถิติทุกอย่าง

นี่คือลิงก์อเมซอนกับหนังสือทั้งหมดที่ฉันพูดถึงและอื่น ๆ

สถิติทางคณิตศาสตร์ที่มีการ Resampling และ R

วิธีการ Bootstrap และการใช้งาน

วิธี Bootstrap: คู่มือสำหรับผู้ปฏิบัติงานและนักวิจัย

บทนำของวิธีบูตสแตรปกับแอปพลิเคชันสู่

การสุ่มตัวอย่างวิธีใหม่สำหรับข้อมูลที่อ้างอิง

วิธีการสุ่มการบูตและมอนติคาร์โลทางชีววิทยา

บทนำสู่ Bootstrap

การปฏิบัติของสหายสถิติธุรกิจบทที่ 18: วิธีการบูตและการทดสอบการเปลี่ยนรูป

การวิเคราะห์ข้อมูลโดยการปรับตัวอย่างซ้ำ: แนวคิดและการใช้งาน

Jackknife, Bootstrap และแผนการ Resampling อื่น ๆ

Jackknife และ Bootstrap

การทดสอบการเปลี่ยนรูปพาราเมตริกและบูตสแตรปของ Hypotheses

Bootstrap และการขยาย Edgeworth


2
@Procrastinator ฉันกำลังทำสิ่งนั้นบ่อยขึ้น ในบางกรณีฉันรีบไปรับคำตอบของฉันโพสต์และกลับมาทำความสะอาดในภายหลัง ฉันยังไม่ได้แปลงที่อยู่ลิงก์ไปยังลิงก์ตามชื่อและฉันไม่แน่ใจว่าเป็นสิ่งที่จำเป็นทั้งหมด มันเป็นการคลิกเพียงครั้งเดียวด้วยวิธีใดวิธีหนึ่ง แต่ถ้าคุณไม่สามารถรอได้ฉันไม่รังเกียจที่จะทำการแก้ไข ในความเป็นจริงฉันขอบคุณมัน
Michael Chernick

1
ฉันจะเปลี่ยนความคิดเห็นของฉันเป็น "ฉันไม่รังเกียจที่คุณจะแก้ไข" ด้วย "แต่ถ้าคุณไม่สามารถรอ" เอาออก ฉันเห็นว่าสิ่งที่คุณทำนั้นดูดีกว่าและง่ายกว่าและอาจใช้เวลาน้อยลง แต่ฉันยังไม่ได้เรียนรู้เลยและฉันไม่เห็นสิ่งนี้เป็นเรื่องใหญ่ในแบบที่ผู้ดูแลและสมาชิกคนอื่นทำ
Michael Chernick

1
10,000

ขอบคุณ procrastinator ฉันคาดว่าจะถึงยอดรวมในวันนี้
Michael Chernick

10

ด้วยการบูตสแตรปคุณเพียงแค่เก็บตัวอย่างซ้ำแล้วซ้ำอีกจากกลุ่มข้อมูลเดียวกัน (ข้อมูลตัวอย่างของคุณ) เพื่อประเมินความแม่นยำของการประมาณการของคุณเกี่ยวกับประชากรทั้งหมด (สิ่งที่เกิดขึ้นจริงในโลกแห่งความเป็นจริง)

หากคุณต้องใช้ตัวอย่างหนึ่งรายการและทำการประมาณค่ากับประชากรจริงคุณอาจไม่สามารถประมาณความแม่นยำของการประมาณการของคุณได้ - เรามีการประมาณการเพียงครั้งเดียวและไม่ได้ระบุว่าการประเมินนี้แตกต่างกันอย่างไรกับตัวอย่างที่แตกต่างกัน

ด้วย bootstrapping เราใช้ตัวอย่างหลักนี้เพื่อสร้างตัวอย่างจำนวนมาก ตัวอย่างเช่นหากเราวัดกำไรทุกวันเกิน 1,000 วันเราอาจสุ่มตัวอย่างจากชุดนี้ เราอาจทำกำไรจากวันสุ่มหนึ่งวันบันทึกมันรับผลกำไรจากวันสุ่มอีกวันหนึ่ง (ซึ่งอาจเกิดขึ้นในวันเดียวกับก่อน - สุ่มตัวอย่างด้วยการแทนที่) บันทึกมันและอื่น ๆ จนกว่าเราจะได้ "ใหม่" ตัวอย่างของ 1000 วัน (จากตัวอย่างเดิม)

ตัวอย่าง "ใหม่" นี้ไม่เหมือนกับตัวอย่างดั้งเดิม - แน่นอนเราอาจสร้างตัวอย่าง "ใหม่" หลายรายการดังกล่าวข้างต้น เมื่อเราดูความแปรปรวนของค่าเฉลี่ยและค่าประมาณเราสามารถอ่านค่าความถูกต้องของประมาณการดั้งเดิมได้

แก้ไข - เพื่อตอบกลับความคิดเห็น

ตัวอย่าง "ที่ใหม่กว่า" ไม่เหมือนกับตัวอย่างแรกและการประมาณการใหม่ที่ยึดตามสิ่งเหล่านี้จะแตกต่างกันไป นี่เป็นการจำลองตัวอย่างประชากรที่ซ้ำ ๆ ความแตกต่างในการประมาณค่าของตัวอย่าง "ใหม่กว่า" ที่สร้างขึ้นโดย bootstrap จะแสดงให้เห็นว่าการประมาณการตัวอย่างจะแตกต่างกันอย่างไรเนื่องจากตัวอย่างที่แตกต่างจากประชากร นี่คือความจริงที่ว่าเราจะลองวัดความแม่นยำของประมาณการดั้งเดิมได้อย่างไร

แน่นอนว่าแทนที่จะใช้วิธี bootstrapping คุณอาจต้องสุ่มตัวอย่างใหม่ ๆ จากประชากร แต่อาจเป็นไปไม่ได้


5
ขอบคุณ! เท่านี้ฉันก็เข้าใจ ฉันสงสัยโดยเฉพาะอย่างยิ่งว่ามันเป็นอย่างไร resampling จากตัวอย่างของประชากรช่วยให้เข้าใจประชากรพื้นฐาน หากเราสุ่มตัวอย่างจากตัวอย่างเราจะเรียนรู้บางอย่างเกี่ยวกับประชากรแทนที่จะเป็นเพียงตัวอย่างได้อย่างไร ดูเหมือนว่าจะมีการกระโดดที่นั่นซึ่งค่อนข้างเคาน์เตอร์ง่าย
Alan H.

4

ฉันรู้ว่านี่เป็นคำถามเก่าที่มีคำตอบที่ยอมรับ แต่ฉันต้องการให้มุมมองของฉันเกี่ยวกับวิธี bootstrap ฉันไม่ได้เป็นผู้เชี่ยวชาญ (มีผู้ใช้สถิติมากกว่า OP) และยินดีต้อนรับการแก้ไขหรือแสดงความคิดเห็น

SiT(Si)

คุณอาจพิจารณาชุดย่อยทั้งหมดขนาด 98 แทนและรับ JK-2 (ลบองค์ประกอบ 2 รายการ) หรือ JK-3 เป็นต้น

ตอนนี้ bootstrap เป็นเพียงเวอร์ชันแบบสุ่มของสิ่งนี้ ด้วยการทำการสุ่มใหม่ผ่านการเลือกด้วยการแทนที่คุณจะ "ลบ" องค์ประกอบจำนวนสุ่ม (อาจไม่มี) และ "แทนที่" โดยการจำลองซ้ำหนึ่งรายการ (หรือมากกว่า)

โดยการแทนที่ด้วยชุดข้อมูลที่ resampled ที่จำลองซ้ำแล้วจะมีขนาดเท่ากัน สำหรับ Jackknife คุณอาจถามว่า Jackknifing มีผลต่อตัวอย่างขนาด 99 แทนที่จะเป็น 100 แต่ถ้าขนาดตัวอย่าง "ใหญ่พอ" นี่น่าจะไม่ใช่ประเด็น

ใน jackknife คุณไม่เคยผสม delete-1 และ delete-2 ฯลฯ เพื่อให้แน่ใจว่าการประมาณการแจ็คมาจากตัวอย่างที่มีขนาดเท่ากัน

คุณอาจพิจารณาแยกตัวอย่างขนาด 100 ออกเป็นตัวอย่าง 10 ตัวอย่างจากขนาด 10 ซึ่งในทางทฤษฎีบางแง่มุมนั้นจะสะอาดกว่า (เซตย่อยอิสระ) แต่ลดขนาดตัวอย่าง (จาก 100 เป็น 10) มากที่สุดเท่าที่จะทำได้ กรณี)

คุณยังสามารถพิจารณาชุดย่อยที่ซ้อนทับบางส่วนที่มีขนาดที่แน่นอน ทั้งหมดนี้ได้รับการจัดการโดยอัตโนมัติและสม่ำเสมอและสุ่มโดยวิธี bootstrap

นอกจากนี้วิธีบูตสแตรปให้คุณประมาณการกระจายตัวตัวอย่างของสถิติของคุณจากการกระจายเชิงประจักษ์ของตัวอย่างดั้งเดิมดังนั้นคุณสามารถวิเคราะห์คุณสมบัติเพิ่มเติมของสถิตินอกเหนือจากข้อผิดพลาดมาตรฐาน


1

การถอดความจิ้งจอกฉันจะเริ่มต้นด้วยการบอกว่ากระบวนการของการ resampling ซ้ำ ๆ จากตัวอย่างที่คุณสังเกตเห็นได้รับการแสดงเพื่อเลียนแบบกระบวนการของการสุ่มตัวอย่างดั้งเดิมจากประชากรทั้งหมด


ลิงก์ด้านบนหมดอายุแล้วดังนั้นฉันจึงไม่รู้ว่า Fox พูดอะไร แต่ไม่มีที่อยู่ที่ฉันกังวลว่า bootstrapping สร้างข้อผิดพลาด สมมติว่าคุณต้องการทราบเกี่ยวกับความถี่สัมพัทธ์ของภาษาบนโลก หากคุณนำตัวอย่างจากอินเทอร์เน็ตและตัวอย่างใหม่อีกครั้งคุณจะพลาดทุกภาษาที่ไม่ได้อยู่ในเน็ต
aquagremlin

1

การสุ่มตัวอย่างอัน จำกัด ของประชากรใกล้เคียงกับการแจกแจงแบบเดียวกับฮิสโตแกรมที่ประมาณ เมื่อสุ่มตัวอย่างใหม่แต่ละครั้งจะมีการเปลี่ยนแปลงจำนวน Bin และคุณจะได้รับการประมาณใหม่ ค่าจำนวนมากผันผวนน้อยกว่าค่าจำนวนน้อยทั้งในประชากรดั้งเดิมและในชุดตัวอย่าง เนื่องจากคุณกำลังอธิบายเรื่องนี้กับคนทั่วไปคุณสามารถยืนยันได้ว่าสำหรับถังขยะขนาดใหญ่การนับนี่คือรากที่สองของการนับถังขยะในทั้งสองกรณี

2080100(0.2×0.8)×1001:4

ฉันคิดว่ามันเป็นสิ่งสำคัญที่จะเน้นว่า bootstrap ไม่ได้เปิดเผยข้อมูล "ใหม่" มันเป็นวิธีที่สะดวกและไม่เกี่ยวกับพารามิเตอร์ในการประมาณตัวอย่างของความผันผวนของตัวอย่างหาก ความน่าจะเป็นจริงนั้นได้รับจากตัวอย่าง


ฉันทำการเปลี่ยนแปลงการจัดรูปแบบเล็กน้อยในคำตอบของคุณ - อย่าลังเลที่จะเปลี่ยนกลับหากคุณพบว่าไม่เหมาะสม สิ่งที่อาจต้องชี้แจงเพิ่มเติมคือทำไมมีรากที่สอง?
ทิม

1

โปรดสังเกตว่าในสถิติเชิงอนุมานคลาสสิกเอนทิตีเชิงทฤษฎีที่เชื่อมโยงตัวอย่างกับประชากรในฐานะผู้ประมาณที่ดีของประชากรคือการกระจายตัวตัวอย่าง (ตัวอย่างที่เป็นไปได้ทั้งหมดที่สามารถดึงมาจากประชากร) วิธีบู๊ตสแตรปกำลังสร้างการกระจายตัวของการสุ่มตัวอย่าง (การกระจายตามหลายตัวอย่าง) แน่นอนว่ามันเป็นวิธีที่เป็นไปได้สูงสุด แต่ตรรกะพื้นฐานนั้นไม่แตกต่างจากทฤษฎีความน่าจะเป็นแบบดั้งเดิมที่อยู่เบื้องหลังสถิติการกระจายแบบปกติแบบคลาสสิก


0

ประเด็นของฉันคือเล็กมาก

Bootstrap ใช้งานได้เพราะมันใช้ประโยชน์จากสถานที่สำคัญในวาระการวิจัยของเราอย่างเข้มข้น

เพื่อให้มีความเฉพาะเจาะจงมากขึ้นในสถิติหรือชีววิทยาหรือวิทยาศาสตร์ที่ไม่ใช่เชิงทฤษฎีส่วนใหญ่เราศึกษาบุคคลดังนั้นจึงรวบรวมตัวอย่าง

แต่จากตัวอย่างดังกล่าวเราต้องการทำการอ้างถึงบุคคลอื่นนำเสนอต่อเราในอนาคตหรือในกลุ่มตัวอย่างที่แตกต่างกัน

ด้วย bootstrap โดยการสร้างแบบจำลองของเราอย่างชัดเจนในแต่ละองค์ประกอบของตัวอย่างเราอาจดีกว่า (โดยมีสมมติฐานน้อยกว่าปกติ) อนุมานและทำนายสำหรับบุคคลอื่น


1
นี่ดูเหมือนจะไม่แยกความแตกต่าง bootstrap จากขั้นตอนทางสถิติอื่น ๆ ที่เริ่มต้นด้วยข้อมูลดิบ ดูเหมือนว่าจะแยกความแตกต่างจากขั้นตอนที่อยู่บนพื้นฐานของสถิติสรุปหรือความถี่ binned
whuber

0

เมื่ออธิบายถึงผู้เริ่มต้นฉันคิดว่ามันช่วยยกตัวอย่างเฉพาะ ...

ลองนึกภาพคุณมีตัวอย่างสุ่ม 9 การวัดจากประชากรบางส่วน ค่าเฉลี่ยของตัวอย่างคือ 60 เราแน่ใจได้ไหมว่าค่าเฉลี่ยของประชากรทั้งหมดเป็น 60 ด้วย? เห็นได้ชัดว่าไม่ใช่เพราะกลุ่มตัวอย่างขนาดเล็กจะแตกต่างกันดังนั้นการประมาณ 60 น่าจะไม่ถูกต้อง หากต้องการทราบว่าตัวอย่างเช่นนี้จะแตกต่างกันเท่าใดเราสามารถเรียกใช้การทดลองบางอย่างโดยใช้วิธีการที่เรียกว่า bootstrapping

ตัวเลขแรกในตัวอย่างคือ 74 และอันที่สองคือ 65 ลองจินตนาการถึงประชากรที่ "เสแสร้ง" อันยิ่งใหญ่ที่ประกอบไปด้วยหนึ่งในเก้าเก้า 74 หนึ่งในหกของ 65 เป็นต้น วิธีที่ง่ายที่สุดในการสุ่มตัวอย่างแบบสุ่มจากประชากรนี้คือการสุ่มตัวเลขจากตัวอย่างเก้าจากนั้นแทนที่มันเพื่อให้คุณมีตัวอย่างดั้งเดิมเก้าอีกครั้งและเลือกอีกตัวอย่างหนึ่งแบบสุ่มจนกว่าคุณจะมี "resample" ของ 9. เมื่อฉันทำสิ่งนี้ 74 ไม่ปรากฏเลย แต่ตัวเลขอื่น ๆ ปรากฏขึ้นสองครั้งและค่าเฉลี่ยคือ 54.4 (นี่คือการตั้งค่าบนสเปรดชีตที่http://woodm.myweb.port.ac.uk/SL/resample.xlsx - คลิกที่แท็บ bootstrap ที่ด้านล่างของหน้าจอ)

เมื่อฉันนำตัวอย่างใหม่ 1,000 ครั้งด้วยวิธีนี้ค่าเฉลี่ยของพวกเขาเปลี่ยนจาก 44 เป็น 80 โดยมี 95% ระหว่าง 48 และ 72 ซึ่งแสดงว่ามีข้อผิดพลาดมากถึง 16-20 หน่วย (44 คือ 16 ต่ำกว่าค่าเฉลี่ยของประชากรที่ทำท่าเท่ากับ 60 80 คือ 20 หน่วยข้างต้น) ในการใช้ตัวอย่างขนาด 9 เพื่อประมาณค่าเฉลี่ยประชากร และเรามั่นใจได้ 95% ว่าข้อผิดพลาดจะเป็น 12 หรือน้อยกว่า ดังนั้นเราจึงมั่นใจได้ 95% ว่าค่าเฉลี่ยประชากรจะอยู่ระหว่าง 48 และ 72

มีข้อสันนิษฐานหลายอย่างที่คัดสรรมาจากที่นี่สิ่งที่เห็นได้ชัดคือข้อสันนิษฐานที่ว่ากลุ่มตัวอย่างให้ภาพที่เป็นประโยชน์ของประชากร - ประสบการณ์แสดงให้เห็นว่าสิ่งเหล่านี้ทำงานได้ดีโดยทั่วไปหากตัวอย่างมีขนาดใหญ่พอสมควร (9 มีขนาดเล็กนิดหน่อย ดูว่าเกิดอะไรขึ้น) สเปรดชีตที่http://woodm.myweb.port.ac.uk/SL/resample.xlsxช่วยให้คุณสามารถดูตัวอย่างแต่ละชิ้นฮิสโตแกรมพล็อตของ 1,000 ตัวอย่างใหม่ทดลองกับตัวอย่างขนาดใหญ่ ฯลฯ มีคำอธิบายรายละเอียดเพิ่มเติมในบทความ ที่ https://arxiv.org/abs/1803.06214


นี่คือระดับประถมศึกษาและอาจจะง่าย แต่ฉันไม่คิดว่ามันจะเป็นเพราะเหตุผลที่ bootstrap ทำงาน
Michael Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.