การบูตสแตรป - คนที่สามารถให้คำอธิบายง่ายๆเพื่อให้ฉันเริ่มต้นได้อย่างไร


9

แม้จะมีความพยายามหลายครั้งในการอ่านเกี่ยวกับ bootstrapping แต่ดูเหมือนว่าฉันจะชนกำแพงอิฐเสมอ ฉันสงสัยว่าใครสามารถให้คำจำกัดความที่ไม่ใช่ด้านเทคนิคของการบูตสแตรปหรือไม่?

ฉันรู้ว่ามันเป็นไปไม่ได้ในฟอรั่มนี้เพื่อให้รายละเอียดมากพอที่จะช่วยให้ฉันเข้าใจมัน แต่การผลักดันอ่อนโยนในทิศทางที่เหมาะสมกับเป้าหมายหลักและกลไกของความร่วมมือจะมากชื่นชม! ขอบคุณ

คำตอบ:


8

รายการ Wikipedia บน Bootstrapping ดีมากจริง ๆ :

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

สาเหตุที่พบบ่อยที่สุดคือ bootstrapping ถูกนำมาใช้คือเมื่อไม่ทราบรูปแบบของการแจกแจงต้นแบบซึ่งเป็นตัวอย่างที่ไม่รู้จัก ตามเนื้อผ้านักสถิติถือว่าการแจกแจงแบบปกติ (สำหรับเหตุผลที่ดีมากที่เกี่ยวข้องกับทฤษฎีบทขีด จำกัด กลาง) แต่สถิติ (เช่นค่าเบี่ยงเบนมาตรฐานช่วงความเชื่อมั่นการคำนวณกำลังไฟฟ้า ฯลฯ ) ประมาณผ่านทฤษฎีการกระจายแบบปกติเท่านั้นที่ถูกต้องเท่านั้น ปกติ.

ด้วยการสุ่มตัวอย่างตัวอย่างซ้ำแล้วซ้ำอีกการบูตจะช่วยให้การประมาณการที่เป็นอิสระจากการกระจาย ตามเนื้อผ้าแต่ละ "resample" ของตัวอย่างดั้งเดิมสุ่มเลือกจำนวนการสังเกตเช่นเดียวกับในตัวอย่างเดิม อย่างไรก็ตามสิ่งเหล่านี้จะถูกเลือกด้วยการแทนที่ หากตัวอย่างมีการสังเกตแบบ N แต่ละตัวอย่างการบู๊ตสแตรปจะมีการสังเกตแบบ N โดยมีตัวอย่างดั้งเดิมจำนวนมากทำซ้ำและแยกออกไปจำนวนมาก

พารามิเตอร์ที่น่าสนใจ (เช่นอัตราส่วนอัตราต่อรองเป็นต้น) จากนั้นสามารถประมาณได้จากตัวอย่างแต่ละตัวอย่างที่บู๊ตแล้ว การทำ bootstrap ซ้ำ 1,000 ครั้งช่วยให้การประเมิน "มัธยฐาน" และ 95% ช่วงความเชื่อมั่นในสถิติ (เช่นอัตราต่อรอง) โดยการเลือกเปอร์เซ็นต์ไทล์ 2.5, 50 และ 97.5


8

นักวิทยาศาสตร์อเมริกันเมื่อเร็ว ๆ นี้มีบทความที่ดีโดย Cosma Shalizi บนbootstrapซึ่งเป็นการอ่านที่ค่อนข้างง่ายและให้สิ่งจำเป็นสำหรับคุณที่จะเข้าใจแนวคิด


7

กว้างมาก : ปรีชาเช่นเดียวกับที่มาของชื่อ ("ดึงตัวเองขึ้นมาจาก bootstraps") ได้รับมาจากการสังเกตว่าในการใช้คุณสมบัติของตัวอย่างเพื่อดึงข้อสรุปเกี่ยวกับประชากร (ปัญหา "ผกผัน" ของสถิติ การอนุมาน) เราคาดว่าจะผิดพลาด ในการค้นหาธรรมชาติของข้อผิดพลาดนั้นให้ปฏิบัติต่อกลุ่มตัวอย่างด้วยตัวเองในฐานะของประชากรเองและศึกษาว่ากระบวนการอนุมานของคุณทำงานอย่างไรเมื่อคุณดึงตัวอย่างจากมัน นั่นเป็น "ข้างหน้า" ปัญหา: คุณรู้ทั้งหมดเกี่ยวกับ sample- คุณใฐานะ- ประชากรและไม่ต้องเดาอะไรเกี่ยวกับมัน การศึกษาของคุณจะแนะนำ (ก) ขอบเขตที่กระบวนการอนุมานของคุณอาจมีอคติและ (ข) ขนาดและลักษณะของข้อผิดพลาดทางสถิติของกระบวนการของคุณ ดังนั้นใช้ข้อมูลนี้เพื่อปรับประมาณการเดิมของคุณ ในหลาย ๆ สถานการณ์ (แต่ไม่ใช่ทั้งหมด) การตั้งค่าที่ปรับแล้วนั้นต่ำกว่ามาก

ข้อมูลเชิงลึกหนึ่งที่ให้ไว้โดยคำอธิบายแผนผังนี้คือ bootstrapping ไม่จำเป็นต้องมีการจำลองหรือการ subsampling ซ้ำ: เหล่านั้นเพิ่งจะเป็นรถโดยสารวิธีการเวไนย computationally เพื่อศึกษาขั้นตอนทางสถิติใด ๆ เมื่อประชากรเป็นที่รู้จัก มีการประมาณการ bootstrap มากมายที่สามารถคำนวณทางคณิตศาสตร์ได้

คำตอบนี้เป็นไปตามหนังสือของปีเตอร์ฮอลล์เรื่อง "The Bootstrap และ Edgeworth Expansion" (Springer 1992) โดยเฉพาะอย่างยิ่งคำอธิบายของเขาเกี่ยวกับ "หลักการหลัก" ของการทำรองเท้า


ฉันชอบวิธีนี้ "ดั้งเดิม" (รายการอื่น ๆ wrt.) ถึงกระนั้นฉันก็มักจะอธิบายได้ยากว่าทำไมบูตสแตปป์ถึงใช้งานได้จริง ...
chl

4

wiki บนbootstrappingให้คำอธิบายต่อไปนี้:

Bootstrapping ช่วยให้ผู้ใช้สามารถรวบรวมสถิติทางเลือกหลาย ๆ รุ่นซึ่งโดยปกติจะคำนวณจากตัวอย่างหนึ่ง ตัวอย่างเช่นสมมติว่าเรามีความสนใจในความสูงของผู้คนทั่วโลก เนื่องจากเราไม่สามารถวัดจำนวนประชากรทั้งหมดได้เราจึงสุ่มตัวอย่างเพียงบางส่วนเท่านั้น จากตัวอย่างนั้นมีเพียงค่าเดียวของสถิติที่สามารถรับได้คือค่าเฉลี่ยเดียวหรือค่าเบี่ยงเบนมาตรฐานหนึ่งค่าและด้วยเหตุนี้เราจึงไม่เห็นว่าสถิตินั้นเปลี่ยนแปลงไปมากน้อยเพียงใด เมื่อใช้ bootstrapping เราสุ่มแยกตัวอย่างใหม่ของความสูง n จากข้อมูลตัวอย่าง N ซึ่งแต่ละคนสามารถเลือกได้มากที่สุด ด้วยการทำเช่นนี้หลายครั้งเราสร้างชุดข้อมูลจำนวนมากที่เราอาจได้เห็นและคำนวณสถิติสำหรับแต่ละชุดข้อมูลเหล่านี้ ดังนั้นเราจึงได้ประมาณการกระจายตัวของสถิติ

ฉันจะให้รายละเอียดเพิ่มเติมหากคุณสามารถชี้แจงว่าส่วนใดของคำอธิบายข้างต้นที่คุณไม่เข้าใจ


4

ฉันชอบคิดดังต่อไปนี้: ถ้าคุณได้รับชุดข้อมูลตัวอย่างแบบสุ่มจากประชากรก็น่าจะเป็นไปได้ว่ากลุ่มตัวอย่างนั้นมีลักษณะที่ตรงกับประชากรของแหล่งที่มาโดยประมาณ ดังนั้นหากคุณสนใจที่จะได้รับช่วงความเชื่อมั่นในคุณลักษณะเฉพาะของการแจกแจงความเบ้ของมันนั้นคุณสามารถปฏิบัติต่อกลุ่มตัวอย่างเป็นประชากรเทียมโดยที่คุณสามารถได้รับกลุ่มตัวอย่างเทียมสุ่มจำนวนมาก มูลค่าของคุณสมบัติที่น่าสนใจในแต่ละ สมมติฐานที่ว่าตัวอย่างดั้งเดิมนั้นตรงกับประชากรก็หมายความว่าคุณสามารถได้รับตัวอย่างปลอมโดยการสุ่มตัวอย่างจากประชากรหลอก "ด้วยการแทนที่" (ตัวอย่างเช่นคุณสุ่มค่าบันทึกจากนั้นนำกลับมาแต่ละค่า มีโอกาสถูกสังเกตหลายครั้ง)


3

Bootstrap เป็นการจำลองการทดลองซ้ำ สมมติว่าคุณมีกล่องที่มีลูกบอลและต้องการที่จะได้ขนาดโดยเฉลี่ยของลูกบอล - ดังนั้นคุณวาดบางอย่างของพวกเขาวัดและหาค่าเฉลี่ย ตอนนี้คุณต้องการทำซ้ำเพื่อรับการแจกแจงเช่นเพื่อให้ได้ค่าเบี่ยงเบนมาตรฐาน - แต่คุณพบว่ามีคนขโมยกล่องไป
สิ่งที่สามารถทำได้ในขณะนี้คือการใช้สิ่งที่คุณมี - การวัดหนึ่งชุด แนวคิดก็คือนำลูกบอลไปยังกล่องใหม่และจำลองการทดลองดั้งเดิมโดยการวาดลูกบอลจำนวนเท่าเดิมพร้อมการแทนที่ - ทั้งคู่จะมีขนาดตัวอย่างเท่ากันและความแปรปรวนบางอย่าง ตอนนี้สามารถทำซ้ำหลาย ๆ ครั้งเพื่อรับชุดของวิธีการที่สามารถนำมาใช้ในการประมาณการกระจายเฉลี่ย


3

นี่คือสาระสำคัญของการบูตสแตรป: การเก็บตัวอย่างข้อมูลของคุณที่แตกต่างกันรับสถิติสำหรับแต่ละตัวอย่าง (เช่นค่าเฉลี่ยมัธยฐานสหสัมพันธ์สัมประสิทธิ์การถดถอย ฯลฯ ) และใช้ความแปรปรวนของสถิติในตัวอย่างเพื่อบ่งบอกบางสิ่งเกี่ยวกับ ข้อผิดพลาดมาตรฐานและช่วงความมั่นใจสำหรับสถิติ - การบู๊ตและแพ็คเกจบู๊ตใน R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.