การคำนวณช่วงความเชื่อมั่นผ่าน bootstrap จากการสังเกต


12

bootstrap ในรูปแบบมาตรฐานสามารถใช้ในการคำนวณช่วงความเชื่อมั่นของสถิติโดยประมาณหากการสังเกตนั้นเป็น iid I. Visser และคณะ ใน " Confidence Intervals สำหรับพารามิเตอร์ Markov Model ที่ซ่อนอยู่ " ใช้ bootstrap แบบพารามิเตอร์เพื่อคำนวณ CIs สำหรับพารามิเตอร์ HMM อย่างไรก็ตามเมื่อเราใส่ HMM ตามลำดับการสังเกตเราได้สันนิษฐานไว้แล้วว่าการสังเกตนั้นขึ้นอยู่กับ (ในทางตรงกันข้ามกับโมเดลผสม)

ฉันมีสองคำถาม:

  1. สมมติฐาน iid ทำอะไรกับ bootstrap?
  2. เราสามารถเพิกเฉยต่อข้อกำหนดของ id ใน bootstrap แบบพารามิเตอร์ได้หรือไม่?

Visser และคณะ วิธีการสั้น ๆ ดังนี้:

  1. สมมติเรามีลำดับสังเกตผลมาจากการสุ่มตัวอย่างอืมกับชุดจริง แต่ไม่รู้จักของพารามิเตอร์\Y=o1,o2,...,onθ=θ1,θ2,...,θl
  2. พารามิเตอร์สามารถประมาณได้โดยใช้อัลกอริทึม EM:θ^=θ^1,θ^2,...,θ^l
  3. ใช้ HMM โดยประมาณเพื่อสร้างตัวอย่าง bootstrap ขนาด :nY=o1,o2,...,on
  4. ประมาณค่าพารามิเตอร์ของ HMM ตามตัวอย่าง bootstrap:θ^=θ^1,θ^2,...,θ^l
  5. ทำซ้ำขั้นตอนที่ 3 และ 4 สำหรับครั้ง (เช่น = 1,000) ส่งผลให้การประเมิน bootstrap:BBBθ^(1),θ^(2),...,θ^(B)
  6. คำนวณ CI ของแต่ละพารามิเตอร์โดยประมาณโดยใช้การกระจายของในการประมาณค่า bootstrapθ^iθ^i

หมายเหตุ (ข้อค้นพบของฉัน):

  1. วิธีเปอร์เซ็นไทล์ควรใช้ในการคำนวณ CIs เพื่อให้มีการครอบคลุมที่ถูกต้อง (ปกติเป็นข้อสันนิษฐานที่ไม่ดี)
  2. อคติของการกระจาย bootstrap ควรได้รับการแก้ไข หมายความว่าการกระจายความหมายของควรเลื่อนไปที่θ^iθ^i

คำถามแรกในคำอื่น ๆ : อะไรคือผลกระทบของการสมมติ iid บน bootstrap? มันเป็นสมมติฐานที่ง่ายที่สามารถลบออกได้โดยทำตามอัลกอริทึมหรือสูตรที่ซับซ้อนกว่านี้หรือไม่?
Sadeghd

คำตอบ:


11

คำตอบสั้น ๆ : 1. มันลดความซับซ้อน (ตรงไปตรงมาฉันไม่ได้รับคำถาม) 2. ไม่คุณไม่สามารถเพิกเฉยได้เนื่องจากการขาด iid มีผลทันทีต่อความแปรปรวนของสิ่งที่คุณกำลังประเมิน

คำตอบปานกลาง:ปัญหาสำคัญของ bootstrap คือ'ขั้นตอนที่เสนอจะสร้างคุณลักษณะของข้อมูลใหม่หรือไม่' . การละเมิดสมมติฐาน iid นั้นเป็นเรื่องใหญ่: ข้อมูลของคุณขึ้นอยู่กับคุณ (เป็นไปได้มากที่สุด) ที่มีข้อมูลในข้อมูลของคุณน้อยกว่าที่คุณมีในตัวอย่าง iid ที่มีขนาดเท่ากันและถ้าคุณเรียกใช้ bootstrap ที่ไร้เดียงสา ข้อสังเกต) ข้อผิดพลาดมาตรฐานที่คุณได้รับจากมันจะเล็กเกินไป ขั้นตอนที่นำเสนอหลีกเลี่ยงปัญหาการขาดความเป็นอิสระโดยการจับ (หรืออย่างน้อยก็พยายามที่จะจับ) การพึ่งพาอาศัยในโครงสร้างแบบจำลองและพารามิเตอร์ หากสำเร็จแต่ละตัวอย่าง bootstrap จะทำซ้ำคุณลักษณะของข้อมูลตามต้องการ

คำตอบยาว:มีหลายชั้นของสมมติฐานที่เกี่ยวข้องกับ bootstrap และแม้ในกรณีที่เป็นไปได้ง่ายที่สุด (ข้อมูล iid การประมาณค่าเฉลี่ย) คุณต้องทำอย่างน้อยสามข้อ: (1) สถิติที่น่าสนใจเป็นฟังก์ชันที่ราบรื่นของข้อมูล (เป็นจริงในกรณีของค่าเฉลี่ยไม่เป็นความจริงแม้แต่ในกรณีของเปอร์เซ็นไทล์โดยสิ้นเชิงกับการประมาณค่าการจับคู่เพื่อนบ้านที่ใกล้ที่สุด) (2) การกระจายที่คุณ bootstrap คือ "ปิด" กับการกระจายประชากร (ทำงานได้ดีในกรณีของข้อมูล iid นั้นอาจไม่ทำงานในกรณีของข้อมูลที่ต้องพึ่งพาซึ่งคุณมีวิถีทางเดียว = หนึ่งการสังเกตใน กรณีของอนุกรมเวลาและคุณต้องเรียกใช้สมมติฐานเพิ่มเติมเช่นความคงที่และการผสมเพื่อยืดเวลาการสังเกตการณ์นี้ให้กลายเป็นประชากรกึ่งประชากร); (3) การสุ่มตัวอย่างการ Bootstrap ของ Monte Carlo ของคุณนั้นดีพอที่จะประมาณการ bootstrap สมบูรณ์ด้วย subsamples ที่เป็นไปได้ทั้งหมด (ความไม่ถูกต้องจากการใช้ Monte Carlo กับ Bootstrap ที่สมบูรณ์นั้นน้อยกว่าความไม่แน่นอนที่คุณพยายามจับภาพ) ในกรณีของ bootstrap แบบพารามิเตอร์คุณยังได้สมมุติว่า (4) โมเดลของคุณอธิบายคุณสมบัติทั้งหมดของข้อมูลได้อย่างสมบูรณ์แบบ

เป็นคำเตือนของสิ่งที่อาจผิดไปด้วย (4) ให้คิดถึงการถดถอยด้วยข้อผิดพลาด heteroskedastic: , Varพูด หากคุณใส่แบบจำลอง OLS และลองเปลี่ยนส่วนที่เหลือราวกับว่าเป็น iid คุณจะได้รับคำตอบที่ผิด (โดยที่คือ ค่าเฉลี่ยแทนค่าที่เหมาะสมy=xβ+ϵ[ϵ]=exp[xγ]σ¯2(XX)1σ¯21/niexp[xiγ](XX)1exp[xiγ]xixi(XX)1) ดังนั้นหากคุณต้องการมีวิธี bootstrap แบบพาราเมตริกอย่างสมบูรณ์คุณจะต้องปรับโมเดลให้เหมาะกับ heteroskedasticity พร้อมกับโมเดลสำหรับค่าเฉลี่ย และถ้าคุณสงสัยว่ามีความสัมพันธ์แบบอนุกรมหรืออื่น ๆ คุณจะต้องปรับโมเดลให้เหมาะสม (ดูว่าการกระจาย bootstrap ที่ไม่มีพารามิเตอร์แบบไม่มีพารามิเตอร์นั้นค่อนข้างหายไปแล้วในตอนนี้เนื่องจากคุณได้แทนที่เสียงของข้อมูลด้วยเสียงสังเคราะห์ของโมเดลของคุณ)

วิธีที่คุณอธิบายทำงานได้ตามสมมติฐาน iid โดยการสร้างตัวอย่างใหม่ทั้งหมด ปัญหาที่ยิ่งใหญ่ที่สุดกับ bootstrap ข้อมูลที่ขึ้นต่อกันคือการสร้างตัวอย่างที่จะมีรูปแบบการพึ่งพาซึ่งเพียงพอที่จะใกล้เคียงกับที่อยู่ในข้อมูลดั้งเดิม ด้วยอนุกรมเวลาคุณสามารถใช้ block bootstraps ได้ ด้วยข้อมูลคลัสเตอร์คุณจะบูตกลุ่มทั้งหมด ด้วย heteroskedastic regression คุณต้องใช้ bootstraps ป่า (ซึ่งเป็นความคิดที่ดีกว่า bootstrap ของส่วนที่เหลือแม้ว่าคุณจะติดตั้งโมเดล heteroskedasticty ไว้) ในบล็อกบูตสแตรปคุณจะต้องคาดเดาการศึกษา (หรือกล่าวอีกนัยหนึ่งมีเหตุผลที่ดีที่จะเชื่อ) ว่าส่วนต่าง ๆ ของอนุกรมเวลานั้นมีความเป็นอิสระโดยประมาณดังนั้นโครงสร้างความสัมพันธ์ทั้งหมดจะถูกจับด้วย 5 หรือ 10 การสังเกตที่ก่อตัวเป็นบล็อก ดังนั้นแทนที่จะสังเกตการสุ่มตัวอย่างทีละตัวซึ่งไม่สนใจโครงสร้างความสัมพันธ์ของอนุกรมเวลาทั้งหมดคุณลองทำการสุ่มใหม่ในบล็อกโดยหวังว่าสิ่งนี้จะเคารพโครงสร้างความสัมพันธ์ รูปแบบการบูตแบบพาราเมตริกที่คุณอ้างถึงพูดว่า: "แทนที่จะเล่นซอกับข้อมูลและประกอบตุ๊กตาใหม่จากชิ้นส่วนเก่า ๆ ทำไมฉันไม่เพียงแค่ประทับตุ๊กตาบาร์บี้ที่ขึ้นรูปให้คุณแทนฉันคิดว่าฉันเป็นคนแบบไหน ของ Barbies ที่คุณชอบและฉันสัญญาว่าฉันจะทำให้คุณเป็นหนึ่งที่คุณต้องการเช่นกัน " แทนที่จะเล่นซอกับข้อมูลและรวบรวมตุ๊กตาใหม่จากชิ้นส่วนเก่าทำไมฉันไม่เพียงแค่ประทับตุ๊กตาบาร์บี้ที่ขึ้นรูปไว้ให้คุณแทน? ฉันพบว่าคุณชอบ Barbies แบบไหนและฉันสัญญาว่าฉันจะทำให้คุณเป็นคนที่คุณชอบเช่นกัน " แทนที่จะเล่นซอกับข้อมูลและรวบรวมตุ๊กตาใหม่จากชิ้นส่วนเก่าทำไมฉันไม่เพียงแค่ประทับตุ๊กตาบาร์บี้ที่ขึ้นรูปไว้ให้คุณแทน? ฉันพบว่าคุณชอบ Barbies แบบไหนและฉันสัญญาว่าฉันจะทำให้คุณเป็นคนที่คุณชอบเช่นกัน "

ในกรณีของการบูตแบบพาราเมตริกที่คุณอธิบายไว้คุณต้องมั่นใจว่าโมเดล HMM ของคุณนั้นสมบูรณ์แบบมากมิฉะนั้นบู๊ทสแตรปพาราเมตริกของคุณอาจนำไปสู่ผลลัพธ์ที่ไม่ถูกต้อง (Barbies ที่ไม่สามารถขยับแขนได้) คิดเกี่ยวกับตัวอย่างการถดถอย heteroskedastic ข้างต้น หรือคิดเกี่ยวกับการปรับโมเดล AR (1) ให้สอดคล้องกับข้อมูล AR (5): ไม่ว่าคุณจะทำอะไรกับข้อมูลที่จำลองโดยพารามิเตอร์พวกเขาจะไม่มีโครงสร้างของข้อมูลดั้งเดิมที่เคยมี

แก้ไข : ดังที่ Sadeghd ได้ชี้แจงคำถามของเขาฉันสามารถตอบคำถามนั้นได้เช่นกัน มีขั้นตอนการบู๊ตสแตรปอันหลากหลายที่มีขนาดใหญ่โตแต่ละอันระบุถึงการเล่นโวหารโดยเฉพาะในสถิติขนาดตัวอย่างการพึ่งพาหรืออะไรก็ตามที่เป็นปัญหาของบูทสแตรป ไม่มีวิธีใดที่จะกล่าวถึงการพึ่งพาเช่นกัน (ฉันเคยทำงานกับ bootstraps แบบสำรวจมีประมาณ 8 โพรซีเดอร์ที่แตกต่างกันถึงแม้ว่าบางอันส่วนใหญ่จะเป็นระเบียบวิธีมากกว่าความสนใจในทางปฏิบัติและบางอันก็ด้อยกว่าอย่างเห็นได้ชัดว่ามันใช้ได้เฉพาะในกรณีพิเศษ การสนทนาทั่วไปของปัญหาที่คุณอาจพบกับ bootstrap ให้ดูที่Canty, Davison, Hinkley และ Ventura (2006) การวินิจฉัยและการแก้ไข Bootstrap วารสารของแคนาดาสถิติ 34 (1), 5-27


เพียงเพิ่มคำสั่งของคุณเกี่ยวกับการมีข้อมูลน้อยลงเมื่อคุณมีกลุ่มของข้อมูล (ในส่วนของสื่อกลาง ) ฉันเชื่อว่านี่เป็นความจริงเมื่อมีความสัมพันธ์เชิงบวกภายในอินทราเน็ตภายในคลัสเตอร์ แต่ตรงกันข้ามกับเมื่อลบ สหสัมพันธ์ intraclass แน่นอนว่าดูเหมือนว่าในแอปพลิเคชันข้อมูลจริงส่วนใหญ่ความสัมพันธ์ภายในเซลล์เป็นบวก
มาโคร

@Macro: แน่นอนว่าทั้งคู่มีความสำคัญ (ซึ่งเป็นไปได้ในทางเทคนิคและเป็นสิ่งที่ไม่เกี่ยวข้องในทางปฏิบัติ) สิ่งนี้จะเป็นจริงถ้าคุณประเมินระดับเฉลี่ยของกระบวนการ AR (1) ที่มีความสัมพันธ์เชิงลบ แต่อีกครั้งที่ฉันกำลังคิดถึงการสูญเสียของกระบวนการจริงที่อาจมีคุณลักษณะนี้ ซึ่งแตกต่างจากความสัมพันธ์เชิงบวกอัตโนมัติที่สามารถทำซ้ำได้เองในช่วงเวลาที่แตกต่างกันความสัมพันธ์เชิงลบจะต้องหายไปหากคุณเพิ่มความยาวของระยะเวลาอ้างอิงเป็นสองเท่า (ข้อมูลรอบธุรกิจเช่น GDP สหรัฐฯมีความสัมพันธ์เชิงลบที่ความล่าช้าล่าช้าประมาณสามปี)
StasK

ขอบคุณสำหรับคำตอบโดยละเอียดของคุณ ฉันได้ข้อสรุปว่าการสุ่มตัวอย่างพารามิเตอร์ใหม่อาจลดผลกระทบของการพึ่งพาอาศัยกัน อย่างไรก็ตามการกระจายตัวของพารามิเตอร์จะต้องอยู่ในระดับที่ดีตัวแทนของประชากรที่แท้จริงและรูปแบบการพึ่งพาอาศัยกันได้รับการสร้างใหม่ในการสุ่มตัวอย่างใหม่
Sadeghd
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.