วิธีการ Bootstrap ทำไม resample“ with replace” แทนที่จะเป็น subsampling แบบสุ่ม


11

วิธีบูตสแตรปได้เห็นการแพร่กระจายที่ยอดเยี่ยมในปีที่ผ่านมาฉันยังใช้มันมากโดยเฉพาะอย่างยิ่งเพราะเหตุผลที่อยู่เบื้องหลังนั้นค่อนข้างใช้งานง่าย

แต่นั่นเป็นสิ่งหนึ่งที่ฉันไม่เข้าใจ เหตุใด Efron จึงเลือกที่จะทำการ resample ด้วยการแทนที่แทนการ subsampling เพียงโดยการสุ่มรวมหรือไม่รวมการสังเกตเดี่ยว

ฉันคิดว่าการสุ่มตัวอย่างแบบสุ่มมีคุณภาพดีมากอย่างหนึ่งซึ่งเป็นตัวแทนของสถานการณ์ในชีวิตจริงที่การสังเกตการณ์ที่เรามีในการศึกษาของเราเป็นส่วนย่อยของประชากรสมมุติ ฉันไม่เห็นประโยชน์ของการสังเกตหลายครั้งระหว่างการสุ่มใหม่ ในบริบทจริงไม่มีการสังเกตใดที่คล้ายกันโดยเฉพาะอย่างยิ่งสำหรับสถานการณ์หลายตัวแปรที่ซับซ้อน


3
ทำ resampling อีกครั้งด้วย resampling เพราะนั่นเป็นสิ่งที่ถูกต้องที่ต้องทำ โมเดลที่อยู่เบื้องหลัง bootstrap คือการใช้โอกาสสูงสุดแบบไม่มีพารามิเตอร์เพื่อประมาณฟังก์ชั่นการแจกแจงสะสมจากนั้นสุ่มตัวอย่างการสังเกตอย่างอิสระจากฟังก์ชันการแจกแจงสะสมโดยประมาณ ลองคิดดูสิ - อย่างที่ได้จากการสุ่มตัวอย่างโดยการแทนที่จากตัวอย่างดั้งเดิม
kjetil b halvorsen

คำตอบ:


10

วิธีหนึ่งในการทำความเข้าใจกับตัวเลือกนี้คือการคิดถึงตัวอย่างที่เป็นตัวแทนที่ดีที่สุดที่คุณมีต่อประชากร คุณอาจไม่มีประชากรทั้งหมดที่จะทำการสุ่มตัวอย่างได้อีกต่อไป แต่คุณมีการแสดงถึงประชากรโดยเฉพาะ ตัวอย่างสุ่มใหม่อย่างแท้จริงจากการเป็นตัวแทนของประชากรหมายความว่าคุณต้องสุ่มตัวอย่างด้วยการแทนที่มิฉะนั้นการสุ่มตัวอย่างในภายหลังของคุณจะขึ้นอยู่กับผลลัพธ์ของการสุ่มตัวอย่างเริ่มต้นของคุณ สถานะของกรณีที่เกิดซ้ำในตัวอย่าง bootstrap โดยเฉพาะแสดงถึงสมาชิกของประชากรพื้นฐานที่มีลักษณะใกล้เคียงกับกรณีที่เกิดซ้ำโดยเฉพาะนั้น ตามที่คุณแนะนำสามารถใช้วิธีการแบบปล่อยครั้งเดียวหรือหลายครั้งได้ แต่นั่นเป็นการตรวจสอบข้ามแบบมากกว่าการบูตสแตรป

ฉันคิดว่านี่น่าจะเป็นความคิดเห็นจาก @kjetil_b_halvorsen


ฉันเข้าใจประเด็น การสังเกตแต่ละอย่างในตัวอย่างบู๊ตสแตรปอิสระจากกันและกัน ในวรรณคดีมีวิธีการอยู่บนพื้นฐานของการสุ่มตัวอย่างดู Politis, Romano, Wolf การใช้ชุดย่อยคงที่ m ของ n เลือกโดยไม่ต้องเปลี่ยน พวกเขาหลีกเลี่ยงหลุมพรางที่คุณพูดก่อนหน้านี้อย่างไร? ในกรณีของพวกเขาอีกครั้งฉันไม่เข้าใจว่าทำไมพวกเขาใช้ตัวอย่างย่อยขนาดคงที่แทนตัวอย่างสุ่ม
Bakaburg

2
วิธีการ Subsampling กำลังพยายามทำสิ่งที่แตกต่างจาก bootstrap วิธีการเหล่านั้นกำลังมองหาเพื่อเลือกสุ่มย่อยจากตัวอย่างข้อมูลมากกว่าการพยายามที่จะเลียนแบบสุ่มใหม่ตัวอย่างจากประชากรพื้นฐาน ไม่ใช่ว่าอย่างใดอย่างหนึ่งผิด พวกเขาเป็นวิธีการต่าง ๆ ที่มีจุดแข็งและจุดอ่อนโดยเฉพาะ
EdM

ดังนั้นบางทีฉันควรถามคำถามใหม่เกี่ยวกับความแตกต่างระหว่างสองวิธีในการอนุมานสถิติ ขอบคุณ!
Bakaburg

@Bakaburg เห็นคำถามนี้สำหรับการแนะนำที่ยอดเยี่ยมในวรรณคดีเกี่ยวกับ bootstrapping กับการตรวจสอบข้าม (ซึ่งเป็นประเภทย่อยโดยเฉพาะ)
EdM

@Bababurg วิธี bootstrap เป็นการจำลองการวาดภาพที่เป็นอิสระซ้ำของตัวอย่างสุ่มขนาด n (ไม่ใช่เซ็ตย่อยที่เล็กกว่า n) จากกลุ่มประชากรขนาดใหญ่ ซึ่งหมายความว่าเป็นไปได้ที่กลุ่มตัวอย่างแบบสุ่มจะมีค่าจำนวนน้อยมากหรือใหญ่มากจากประชากรผู้ปกครองซึ่งมักจะถูกนำเสนอในตัวอย่างดั้งเดิมของเรา ดังที่ EdM ชี้ให้เห็นการ resampling w / Replacement ช่วยให้การสังเกตตัวอย่างเดียว "แทน" การสังเกตหลายครั้งในประชากรที่มีค่าใกล้เคียงกัน - มันเป็นวิธีที่จะได้รับการกระจายประชากรโดยประมาณที่ราบรื่น
RobertF
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.