ทำไมไม่ใช้ bootstrap CIs เสมอไป


12

ฉันสงสัยว่า bootstrap CIs (และ BCa เป็น barticular) ทำงานกับข้อมูลที่กระจายแบบปกติได้อย่างไร ดูเหมือนว่าจะมีงานจำนวนมากที่ตรวจสอบประสิทธิภาพการทำงานของพวกเขาในการแจกแจงแบบต่าง ๆ แต่ไม่พบข้อมูลใด ๆ เกี่ยวกับข้อมูลที่กระจายตามปกติ เนื่องจากดูเหมือนเป็นสิ่งที่ชัดเจนในการศึกษาก่อนฉันจึงคิดว่าเอกสารนั้นเก่าเกินไป

ฉันทำแบบจำลอง Monte Carlo โดยใช้แพ็คเกจการบูต R และพบว่า bootstrap CIs สอดคล้องกับ CIs ที่แน่นอนแม้ว่าสำหรับกลุ่มตัวอย่างขนาดเล็ก (N <20) พวกเขามีแนวโน้มที่จะเสรีเล็กน้อย (CIs ที่เล็กกว่า) สำหรับตัวอย่างที่มีขนาดใหญ่พอพวกมันจะเหมือนกัน

นี้ทำให้ผมสงสัยว่ามีเหตุผลที่ดีใด ๆ ที่จะไม่เสมอใช้ความร่วมมือ ด้วยความยากลำบากในการประเมินว่าการแจกแจงเป็นเรื่องปกติหรือไม่และข้อผิดพลาดมากมายที่อยู่เบื้องหลังสิ่งนี้ดูเหมือนว่ามีเหตุผลที่จะไม่ตัดสินใจและรายงาน bootstrap CIs โดยไม่คำนึงถึงการกระจาย ฉันเข้าใจแรงจูงใจที่ไม่ใช้การทดสอบที่ไม่ใช่พารามิเตอร์อย่างเป็นระบบเนื่องจากมีพลังงานน้อยกว่า แต่การจำลองของฉันบอกฉันว่านี่ไม่ใช่กรณีของ bootstrap CIs พวกมันเล็กลง

คำถามที่คล้ายกันที่ทำให้ฉันเป็นบ้าคือทำไมไม่ใช้ค่ามัธยฐานเป็นมาตรวัดแนวโน้มกลางเสมอไป ผู้คนมักจะแนะนำให้ใช้มันเพื่อจำแนกลักษณะข้อมูลที่ไม่ได้กระจายแบบปกติ แต่เนื่องจากค่ามัธยฐานเป็นเช่นเดียวกับค่าเฉลี่ยสำหรับข้อมูลที่กระจายตามปกติทำไมถึงแตกต่าง? มันจะมีประโยชน์มากถ้าเราสามารถกำจัดขั้นตอนการตัดสินใจว่าการแจกแจงเป็นเรื่องปกติหรือไม่

ฉันอยากรู้มากเกี่ยวกับความคิดของคุณเกี่ยวกับปัญหาเหล การอ้างอิงจะได้รับการชื่นชมอย่างมาก

ขอบคุณ!

ปิแอร์


ดูคำถามของฉันที่นี่เกี่ยวกับค่าเฉลี่ยและค่ามัธยฐาน: stats.stackexchange.com/questions/96371/…
อเล็กซิส

สำหรับปัญหามากมายการ resampling เป็นไปไม่ได้ที่คำนวณได้ ตัวอย่างเช่นหากคุณต้องการคำนวณ CIs สำหรับเมทริกซ์ 3 มิติขนาดใหญ่หรืออนุกรมยาว
jona

คำตอบ:


4

มันเป็นประโยชน์ที่จะดูแรงจูงใจสำหรับช่วงเวลา BCa และกลไก (เช่นที่เรียกว่า "ปัจจัยการแก้ไข") ช่วงเวลา BCa เป็นหนึ่งในแง่มุมที่สำคัญที่สุดของ bootstrap เพราะเป็นกรณีทั่วไปของ Bootstrap Percentile Intervals (นั่นคือช่วงความเชื่อมั่นตามการกระจาย bootstrap เท่านั้น)

โดยเฉพาะอย่างยิ่งดูที่ความสัมพันธ์ระหว่างช่วงเวลา BCa และช่วงเวลา Bootstrap Percentile: เมื่อการปรับสำหรับการเร่งความเร็ว ("ปัจจัยการแก้ไขครั้งแรก") และความเบ้ (ที่สอง "ปัจจัยการแก้ไข") เป็นศูนย์ทั้งสองแล้วช่วงเวลา BCa ย้อนกลับไป Bootstrap Percentile Interval ทั่วไป

ฉันไม่คิดว่ามันจะเป็นความคิดที่ดีเสมอไปใช้ bootstrapping Bootstrapping เป็นเทคนิคที่แข็งแกร่งที่มีกลไกที่หลากหลาย (เช่นช่วงความเชื่อมั่นและมีความแตกต่างของ bootstrap สำหรับปัญหาประเภทต่างๆเช่น bootstrap ป่าเมื่อมี heteroscedasticity) สำหรับการปรับสำหรับปัญหาต่าง ๆ (เช่น: non-normality) ) แต่มันก็ขึ้นอยู่กับข้อสันนิษฐานที่สำคัญอย่างหนึ่งนั่นคือข้อมูลที่ถูกต้องแสดงถึงประชากรที่แท้จริง

สมมติฐานนี้แม้จะเป็นเรื่องธรรมดา แต่เป็นเรื่องยากที่จะตรวจสอบโดยเฉพาะอย่างยิ่งในบริบทของกลุ่มตัวอย่างขนาดเล็ก (อาจเป็นได้ว่ากลุ่มตัวอย่างขนาดเล็กเป็นภาพสะท้อนที่ถูกต้องของประชากรที่แท้จริง!) หากตัวอย่างดั้งเดิมที่การกระจาย bootstrap (และผลลัพธ์ทั้งหมดที่ตามมา) นั้นไม่ถูกต้องเพียงพอผลลัพธ์ของคุณ (และการตัดสินใจของคุณขึ้นอยู่กับผลลัพธ์เหล่านั้น) จะมีข้อบกพร่อง

สรุป: มีความคลุมเครือมากมายกับ bootstrap และคุณควรใช้ความระมัดระวังก่อนใช้


2
"ถ้าตัวอย่างดั้งเดิมที่การกระจาย bootstrap (และผลลัพธ์ทั้งหมดที่ตามมาจากมัน) นั้นไม่ถูกต้องเพียงพอผลลัพธ์ของคุณ (และการตัดสินใจของคุณขึ้นอยู่กับผลลัพธ์เหล่านั้น) จะมีข้อบกพร่อง" -> แต่ bootstrap CI ทำงานได้แย่กว่าทางเลือกการวิเคราะห์ในกรณีเหล่านี้หรือไม่?
jona

3
ข้อสันนิษฐานว่าข้อมูลที่เพียงพอแสดงถึงประชากรไม่ได้ จำกัด เฉพาะการ bootstrapping เท่านั้น: มันเกี่ยวข้องกับสถิติโดยทั่วไปดังนั้นหากข้อมูลไม่เพียงพอดังนั้นการอนุมานใด ๆ การอนุมาน bootstrap หรืออื่น ๆ ที่ทำขึ้นนั้นทำให้เข้าใจผิด สรุป!)
mmmmmmmmmm

4
ดังนั้นข้อแม้นี้ไม่ได้มุ่งไปที่ bootstrap แต่เป็นข้อสรุปและไม่ใช่ข้อโต้แย้งในการใช้ bootstrap เหนือวิธีอื่น แต่เกี่ยวกับการใส่ความเชื่อที่แน่นอนในวิธีที่ผิดพลาดได้ ฉันไม่เห็นความเกี่ยวข้องในบริบทนี้แล้ว
jona

ขออภัยมีความล่าช้าเล็กน้อยในหัวข้อนี้ .... @ jona: สิ่งนี้จะไม่เกี่ยวข้องกันเนื่องจากการบูตสแตรปจะขยายตัวอย่างเพิ่มเติมหรือไม่ ดังนั้นหากตัวอย่างของคุณเป็นข้อมูลที่ผิดที่โชคร้ายของประชากรการใช้ bootstrapping จะส่งคุณไปให้ไกลกว่าศูนย์ประชากรหรือไม่ นั่นเป็นข้อโต้แย้งที่เป็นไปได้หรือไม่ที่จะพึ่งพาการบูตสแตรปแบบเป็นระบบ
sisdog
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.