สองวิธีในการใช้ bootstrap เพื่อประเมินช่วงความมั่นใจของสัมประสิทธิ์ในการถดถอย


21

ฉันกำลังใช้โมเดลเชิงเส้นกับข้อมูลของฉัน:

yi=β0+β1xi+ϵi,ϵiN(0,σ2).

ฉันต้องการประเมินช่วงความมั่นใจ (CI) ของสัมประสิทธิ์ ( , ) โดยใช้วิธี bootstrap มีสองวิธีที่ฉันสามารถใช้วิธี bootstrap:β0β1

  1. ตัวอย่างการตอบสนอง - ทำนายการจับคู่: สุ่มสุ่มคู่ของและนำการถดถอยเชิงเส้นไปใช้กับการวิ่งแต่ละครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของสัมประสิทธิ์ประมาณเมตร สุดท้ายคำนวณ quantile ของ{J}}}yiximβj^,j=1,...mβj^

  2. ข้อผิดพลาดตัวอย่าง: ครั้งแรกที่ใช้การถดถอยเชิงเส้นกับข้อมูลที่สังเกตเดิมจากรุ่นนี้เราได้รับและข้อผิดพลาด{i} หลังจากนั้นให้สุ่มข้อผิดพลาดอีกครั้งและคำนวณข้อมูลใหม่ด้วยและ {i} ใช้การถดถอยเชิงเส้นอีกครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของ coefficeints ประมาณม. สุดท้ายคำนวณ quantile ของ{J}}}βo^ϵiϵiβo^yi=βo^xi+ϵimβj^,j=1,...,mβj^

คำถามของฉันคือ:

  • วิธีการทั้งสองนี้แตกต่างกันอย่างไร
  • ภายใต้สมมติฐานสองข้อใดที่ให้ผลลัพธ์เหมือนกัน

7
ฉันเองจะไม่ใช้เป็นวิธีการเริ่มต้น แต่จะแนะนำช่วงความมั่นใจ bootstrap พื้นฐานแทน ดูหน้า 8 จาก www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf ฉันทำการจำลองจำนวนมากสำหรับตัวแบบไบนารีโลจิสติกส์และได้เห็นช่วงความมั่นใจที่ดีขึ้นโดยใช้ bootstrap ขั้นพื้นฐานมากกว่าการใช้เปอร์เซ็นไทล์หรือ BCa bootstrap
Frank Harrell

1
@ FrankHarrell ให้ชัดเจนโดย "พื้นฐาน" คุณหมายถึงบูตที่ไม่ใช่พารามิเตอร์?
ndoogan

3
(1) คือ bootstrap เปอร์เซ็นไทล์ nonparametric ช่วงความเชื่อมั่นไม่ใช่ bootstrap พื้นฐาน โปรดทราบว่าการสุ่มตัวอย่างจากเป็น bootstrap แบบไม่มีเงื่อนไขซึ่งไม่มีข้อสันนิษฐานมากกว่า bootstrap แบบมีเงื่อนไขที่ resamples เศษเหลือ (x,y)
Frank Harrell

2
ฉันจริงๆไม่ได้เป็นผู้เชี่ยวชาญ แต่เท่าที่ผมเข้าใจมัน 1) มักจะถูกเรียกว่า "กรณี resampling" ขณะที่ 2) เรียกว่า "resampling ที่เหลือ" หรือ "คงที่ " resampling ตัวเลือกพื้นฐานของวิธีนี้ไม่ได้หมายความถึงวิธีการคำนวณช่วงความเชื่อมั่นหลังจากขั้นตอน ผมได้รับข้อมูลนี้ส่วนใหญ่มาจากการกวดวิชาของจอห์นฟ็อกซ์ เท่าที่ฉันเห็นมันหลังจาก bootstrap คุณสามารถคำนวณ CIS bootstrap พื้นฐาน (เช่นใน) หรือฉันจะพลาดอะไรที่นี่? xboot.ci(my.boot, type="basic")R
COOLSerdash

2
ใช่คุณสามารถทำการบูตกลุ่มได้ สิ่งนี้ถูกนำไปใช้ใน R rms validateและcalibrateฟังก์ชั่น
Frank Harrell

คำตอบ:


9

หากคู่การตอบสนองของผู้ทำนายได้มาจากกลุ่มตัวอย่างโดยสุ่มมันปลอดภัยที่จะใช้รูปแบบการสุ่มตัวอย่าง case / random-x / your-first หากมีการควบคุมตัวทำนายหรือค่าของตัวทำนายถูกตั้งค่าโดยผู้ทดลองคุณอาจพิจารณาใช้รูปแบบการสุ่มตัวอย่างที่เหลือ / ตามโมเดล / คงที่ / x- ของคุณ - วินาที

ทั้งสองแตกต่างกันอย่างไร การแนะนำให้รู้จักกับ bootstrap กับแอปพลิเคชันใน Rโดย Davison และ Kounen มีการอภิปรายที่เกี่ยวข้องกับคำถามนี้ (ดูหน้า 9) โปรดดูรหัส R ในภาคผนวกนี้โดย John Foxโดยเฉพาะฟังก์ชั่น boot.huber บนหน้า 5 สำหรับชุดรูปแบบสุ่ม -x และ boot.huber.fixed บนหน้า 10 สำหรับชุดรูปแบบคงที่ x ในขณะที่ในบันทึกการบรรยายโดย Shaliziทั้งสองรูปแบบจะถูกนำไปใช้กับชุดข้อมูล / ปัญหาที่แตกต่างกันภาคผนวกของ Fox แสดงให้เห็นถึงความแตกต่างเพียงเล็กน้อยทั้งสองรูปแบบที่มักจะทำ

เมื่อใดที่ทั้งสองคาดว่าจะให้ผลลัพธ์ใกล้เคียงกัน สถานการณ์หนึ่งคือเมื่อแบบจำลองการถดถอยถูกระบุอย่างถูกต้องเช่นไม่มีความไม่เชิงเส้นที่ไม่ได้ถอดรหัสและสมมติฐานการถดถอยปกติ (เช่นข้อผิดพลาดของ iid ไม่มีค่าผิดปกติ) ดูบทที่ 21 ของหนังสือของ Fox (ซึ่งภาคผนวกข้างต้นที่มีรหัส R เป็นของทางอ้อม) โดยเฉพาะการอภิปรายในหน้า 598 และแบบฝึกหัด 21.3 ชื่อ "สุ่มกับ resampling สุ่มในการถดถอย" เพื่ออ้างอิงจากหนังสือ

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

นอกจากนี้คุณยังจะได้เรียนรู้จากการอภิปรายว่าเหตุใด fixed-x bootstrap โดยปริยายถือว่ารูปแบบการทำงานของโมเดลนั้นถูกต้อง (แม้ว่าจะไม่มีการสันนิษฐานเกี่ยวกับรูปร่างของการแจกแจงข้อผิดพลาด)

ดูคำบรรยายนี้12 เรื่องสำหรับ Society of Actuaries ในไอร์แลนด์โดย Derek Bain นอกจากนี้ยังมีภาพประกอบของสิ่งที่ควรพิจารณา "ผลลัพธ์เดียวกัน":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.