ความผิดพลาดในการบู๊ตแบบมาตรฐานและช่วงความเชื่อมั่นเหมาะสมหรือไม่ในกรณีที่การอนุมานแบบ homoscedasticity ถูกละเมิด?


13

ถ้าใน OLS regressions สองข้อสันนิษฐานว่ามีการละเมิด (การแจกแจงแบบปกติของข้อผิดพลาด homoscedasticity) การ bootstrapping ข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นเป็นทางเลือกที่เหมาะสมเพื่อให้ได้ผลลัพธ์ที่มีความหมายโดยคำนึงถึงความสำคัญของสัมประสิทธิ์ regressor

การทดสอบอย่างมีนัยสำคัญที่มีข้อผิดพลาดมาตรฐานที่บูตสแตรปและช่วงความมั่นใจยังคง "ทำงาน" อยู่กับความแตกต่างระหว่าง

ถ้าใช่จะมีช่วงความเชื่อมั่นที่เกี่ยวข้องอะไรบ้างที่สามารถใช้ในสถานการณ์นี้ (เปอร์เซ็นต์ไทล์, BC, BCA)

ท้ายที่สุดถ้าการบูตสแตรปมีความเหมาะสมในสถานการณ์นี้วรรณกรรมที่เกี่ยวข้องที่จำเป็นต้องอ่านและอ้างถึงข้อสรุปนี้คืออะไร คำใบ้ใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!


1
หากมีการละเมิดดังกล่าวฉันไม่คิดว่าการบูตสตาร์จะรักษาได้ แต่ทำไมไม่ลองแปลง (บันทึก) ข้อมูลเพื่อให้ใกล้เคียงกับมาตรฐานและใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งเช่นจากแซนวิชแพ็คเกจใน R
B_Miner

bootstrap ทำงานได้ดีถ้าคุณปรับรูปแบบการสุ่มใหม่ให้เข้ากับสถานการณ์ที่คุณอยู่
Glen_b

คำตอบ:


20

มีวิธีการอย่างน้อยสาม (อาจมากกว่า) ในการดำเนินการ bootstrap สำหรับการถดถอยเชิงเส้นด้วยข้อมูลที่เป็นอิสระ แต่ไม่ได้กระจายข้อมูลเหมือนกัน (หากคุณมีการละเมิดอื่น ๆ ของสมมติฐาน "มาตรฐาน" เช่นเนื่องจากการบันทึกอัตโนมัติด้วยข้อมูลอนุกรมเวลาหรือการจัดกลุ่มเนื่องจากการออกแบบการสุ่มตัวอย่างสิ่งต่าง ๆ มีความซับซ้อนมากขึ้น)

  1. คุณสามารถ resample สังเกตโดยรวมคือนำตัวอย่างกับการเปลี่ยนของจากข้อมูลเดิม\} นี้จะเป็น asymptotically เทียบเท่ากับการดำเนินการแก้ไข heteroskedasticity ฮิวขาว(yj,xj){(yi,xi)}
  2. คุณสามารถใส่แบบจำลองของคุณได้รับส่วนที่เหลือและลองสุ่มตัวอย่างอย่างอิสระและโดยแทนที่จากการแจกแจงเชิงประจักษ์ แบ่งรูปแบบ heteroskedasticity ถ้ามีดังนั้นฉันสงสัยว่า bootstrap นี้สอดคล้องกันei=yixiβ^xjej
  3. คุณสามารถดำเนินการbootstrap wildที่คุณลองตัวอย่างสัญลักษณ์ที่เหลือซึ่งควบคุมช่วงเวลาที่สองตามเงื่อนไข (และด้วยการปรับแต่งเพิ่มเติมบางอย่างสำหรับช่วงเวลาที่สามตามเงื่อนไข) นี่จะเป็นขั้นตอนที่ฉันอยากจะแนะนำ (หากคุณสามารถเข้าใจและปกป้องผู้อื่นเมื่อถูกถามว่า "คุณทำอะไรเพื่อควบคุมความแตกต่างจาก heteroskedasticity? คุณรู้ได้อย่างไรว่ามันทำงานได้?")

การอ้างอิงขั้นสุดท้ายคือวู (1986)แต่พงศาวดารไม่ตรงกับการอ่านหนังสือภาพ

ปรับปรุงตามคำถามติดตามของ OP ถามในความคิดเห็น:

จำนวนซ้ำของฉันดูใหญ่สำหรับฉัน การอภิปรายที่ดีเท่านั้นพารามิเตอร์บูตนี้ที่ฉันรู้อยู่ในEfron & Tibshirani ของแนะนำหนังสือ

ฉันเชื่อว่าการแก้ไขที่คล้ายกันโดยทั่วไปสำหรับการขาดสมมติฐานการกระจายสามารถรับได้ด้วยข้อผิดพลาดมาตรฐาน Huber / White หนังสือเรียนของ Cameron & Triverdiพูดถึงความเท่าเทียมกันของ bootstrap คู่และ White's heteroskedasticity correction ความเท่าเทียมกันดังต่อไปนี้จากทฤษฎีความทนทานทั่วไปสำหรับ -estimates: การแก้ไขทั้งสองนี้มีจุดมุ่งหมายเพื่อแก้ไขการตั้งสมมติฐานการกระจายสิ่งที่พวกเขาอาจจะเป็นกับสมมติฐานที่น้อยที่สุดของช่วงเวลาที่เหลือของวินาทีและความเป็นอิสระระหว่างการสังเกต ดูเพิ่มเติมHausman และ Palmer (2012)ในการเปรียบเทียบที่เฉพาะเจาะจงมากขึ้นในตัวอย่าง จำกัด (รุ่นของเอกสารนี้มีอยู่ในหนึ่งในเว็บไซต์ของผู้เขียนM) ในการเปรียบเทียบระหว่างการบูตและการแก้ไข heteroskedasticity


ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ! โปรดให้ฉันหนึ่งคำถามติดตาม: ข้อสันนิษฐานเดียวที่ฉันละเมิดคือการกระจายข้อผิดพลาดตามปกติและข้อสันนิษฐาน homoscedasticity นอกจากนี้ฉันสนใจที่จะเห็นว่าค่าสัมประสิทธิ์การถดถอยของฉันเป็นแบบซิก ในทิศทางที่คาดหวังหรือไม่ ขนาดของผลกระทบไม่สำคัญ ฉันคิดว่าสิ่งที่ฉันได้ทำไปแล้วคือตัวเลือกของคุณ 1 ฉันทำข้อผิดพลาดมาตรฐานในการบู๊ตและสร้างเพิ่มเติมจากช่วงความมั่นใจในการบู๊ต ฉันทำอย่างนั้นโดยใช้ Stata: vce (bootstrap, reps (2500) bca), estat bootstrap นั่นรักษาการละเมิดข้อสันนิษฐานของฉันหรือไม่?
เดวิด

ฉันไม่ได้ทำการวิเคราะห์ข้อมูลตามไวยากรณ์ของคุณเท่านั้นและไม่มีใครทำ ชุดข้อมูลของคุณมีขนาดเท่าใด reps(2500)อาจเป็น overkill อย่างน้อยก็สำหรับข้อผิดพลาดมาตรฐาน ฉันคิดว่าreps(500)มันโอเคสำหรับการใช้งานจริงมากที่สุด หนังสือแนะนำ bootstrapของ Efron & Tibshirani มีส่วนที่เกี่ยวกับจำนวนการจำลอง พวกเขามีทั้งบทเกี่ยวกับการถดถอยเช่นกันดังนั้นอาจเป็นอีกหนึ่งการอ้างอิงที่ดีสำหรับคุณที่จะดู
StasK

ขอบคุณสำหรับคำตอบที่รวดเร็ว ชุดข้อมูลคือ ~ 250 คำถามเกี่ยวกับจำนวนการทำซ้ำ (ขอขอบคุณสำหรับลิงค์!) คุณจะยอมรับว่าข้อผิดพลาดมาตรฐาน bootstrapped (โดยการสังเกตซ้ำโดยรวมการสังเกต) และ / หรือช่วงความเชื่อมั่น bootstrapped (เช่นการแก้ไขเปอร์เซ็นไทล์หรืออคติ) วิธีที่เหมาะสมในการกำหนดความสำคัญ (หรือขาดของมัน) ของสัมประสิทธิ์การถดถอยให้การละเมิด homoscedasticity และการกระจายข้อผิดพลาดปกติ? ขอบคุณมากสำหรับข้อมูลของคุณ!
เดวิด

ใช่ฉันจะบอกว่าดีกว่า หากคุณใช้ Stata แม้ว่าคุณจะได้คำตอบที่คล้ายกันมากโดยใช้robustตัวเลือกการถดถอยของคุณ est storeทั้งผลลัพธ์และest tab, seการเปรียบเทียบแบบเคียงข้างกัน
StasK

ขอบคุณ StasK ฉันยังได้เห็นความคิดเห็นต่อไปนี้ที่คุณทำไว้ที่อื่นในเว็บไซต์นี้: "bootstrap ง่าย ๆ พร้อม resampling ⇔ตัวประมาณค่า heteroskedasticity ที่แข็งแกร่งของ heteroskedasticity" ในบริบทของคำถามของฉันตามที่อธิบายไว้ข้างต้น: มีบทความวารสารที่ตีพิมพ์ซึ่งทำให้ประเด็นนี้เป็นจริงหรือไม่?
เดวิด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.