ข้อดีและข้อเสียของการ bootstrapping


11

ฉันเพิ่งได้เรียนรู้เกี่ยวกับแนวคิดของการเริ่มระบบและคำถามไร้เดียงสามาถึงใจ: ถ้าเราสามารถสร้างตัวอย่าง bootstrap จำนวนมากของข้อมูลของเราทำไมต้องรำคาญที่จะได้รับข้อมูล "ของจริง" เพิ่มเติมหรือไม่

ฉันคิดว่าฉันมีคำอธิบายโปรดบอกฉันว่าฉันถูกต้องหรือไม่: ฉันคิดว่ากระบวนการ bootstrapping ช่วยลดความแปรปรวน แต่ถ้าชุดข้อมูลดั้งเดิมของฉันคือ BIASED กว่าที่ฉันติดอยู่กับความแปรปรวนต่ำและอคติสูง ฉันกำลังพูด.


4
bootstrapping ไม่ได้สร้างข้อมูลมากกว่าที่มีอยู่แล้วในข้อมูล (และรุ่น) ... ข้อมูลจริงสามารถให้ข้อมูลเพิ่มเติมแก่คุณได้
Glen_b

2
ฉันเห็นด้วยกับ Glen_b ว่าจะไม่สร้างข้อมูลเพิ่มเติม แต่ฉันไม่เห็นด้วยที่จะให้ข้อมูลน้อยลง ดังที่ฉันพูดในคำตอบของฉันมันไม่ได้ทำงานได้ดีเสมอไป แต่สามารถพูดได้ว่าวิธีการทางสถิติใด ๆ
Michael R. Chernick

1
คำถามที่น่าสนใจ - แนวคิดที่เกี่ยวข้องอาจเป็นเพราะเหตุใด bootstrap จึงทำงาน . การทำความเข้าใจสิ่งนี้จะช่วยให้ทราบว่ามันมีประโยชน์เมื่อใด ฉันคิดว่า bootstrap เป็นการปรับปรุงมากกว่าการประมาณค่าปกติสำหรับการกระจายตัวตัวอย่าง สามารถจัดการกับการออกเดินทางจากปกติที่ไม่มากเกินไป มันเป็นคุณสมบัติที่น่าดึงดูดอื่น ๆ คือคุณไม่จำเป็นต้องทำงานวิเคราะห์ / พีชคณิต - การจำลองข้อมูลทำได้สำหรับคุณ
ความน่าจะเป็นทางการ

คำตอบ:


15

bootstrap เป็นวิธีการอนุมานในลักษณะที่ไม่จำเป็นต้องสมมติว่าเป็นรูปแบบพารามิเตอร์สำหรับการกระจายตัวของประชากร มันไม่ได้รักษาตัวอย่างดั้งเดิมราวกับว่ามันเป็นประชากรแม้จะเป็นกลุ่มตัวอย่างที่เกี่ยวข้องกับการสุ่มตัวอย่างด้วยการแทนที่จากตัวอย่างดั้งเดิม มันอนุมานว่าการสุ่มตัวอย่างด้วยการแทนที่จากตัวอย่างดั้งเดิมขนาด n เลียนแบบโดยใช้ตัวอย่างขนาด n จากประชากรขนาดใหญ่ นอกจากนี้ยังมีตัวแปรหลายอย่างเช่น m จาก n bootstrap ซึ่งจะทำการสุ่มตัวอย่าง m อีกครั้งจากตัวอย่างของขนาด n โดยที่ m <n คุณสมบัติที่ดีของ bootstrap ขึ้นอยู่กับทฤษฎีแบบอะซิติกติก ตามที่คนอื่น ๆ ได้กล่าวถึง bootstrap ไม่มีข้อมูลเพิ่มเติมเกี่ยวกับประชากรมากกว่าสิ่งที่ได้รับในตัวอย่างดั้งเดิม ด้วยเหตุนี้บางครั้งมันก็ใช้งานไม่ได้กับตัวอย่างขนาดเล็ก

ในหนังสือของฉัน "วิธี Bootstrap: คู่มือผู้ปฏิบัติงาน" ฉบับที่สองที่ตีพิมพ์โดย Wiley ในปี 2007 ฉันชี้ให้เห็นถึงสถานการณ์ที่ bootstrap อาจล้มเหลว ซึ่งรวมถึงการแจกแจงที่ไม่มีช่วงเวลาที่แน่นอนขนาดตัวอย่างเล็ก ๆ การประมาณค่าสุดขีดจากการกระจายและการประมาณค่าความแปรปรวนในการสุ่มตัวอย่างแบบสำรวจโดยที่ขนาดประชากรเป็น N และนำตัวอย่างขนาดใหญ่ n มาใช้ ในบางกรณีตัวแปรของ bootstrap สามารถทำงานได้ดีกว่าวิธีเดิม สิ่งนี้เกิดขึ้นกับ m out of n bootstrap ในบางแอพพลิเคชั่นในกรณีของการประเมินอัตราความผิดพลาดในการวิเคราะห์จำแนก, bootstrap 632 เป็นการปรับปรุงวิธีอื่น ๆ รวมถึงวิธีการ bootstrap อื่น ๆ ..

เหตุผลในการใช้งานคือบางครั้งคุณไม่สามารถพึ่งพาสมมติฐานแบบพารามิเตอร์และในบางสถานการณ์ bootstrap จะทำงานได้ดีกว่าวิธีการแบบอื่นที่ไม่ใช่แบบพารามิเตอร์ มันสามารถนำไปใช้กับปัญหาที่หลากหลายรวมถึงการถดถอยแบบไม่เชิงเส้นการจำแนกการประมาณช่วงความเชื่อมั่นการประมาณค่าความเอนเอียงการปรับค่า p และการวิเคราะห์อนุกรมเวลา


6

ตัวอย่างบูตสแตรปสามารถบอกได้เฉพาะสิ่งที่คุณเกี่ยวกับตัวอย่างดั้งเดิมและจะไม่ให้ข้อมูลใหม่เกี่ยวกับประชากรจริง มันเป็นเพียงวิธีการแบบไม่มีพารามิเตอร์สำหรับการสร้างช่วงความมั่นใจและคล้ายคลึงกัน

หากคุณต้องการได้รับข้อมูลเพิ่มเติมเกี่ยวกับประชากรคุณต้องรวบรวมข้อมูลเพิ่มเติมจากประชากร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.