ทำไมการทิ้งส่วนที่เหลือจากรูปแบบเอฟเฟกต์ผสมจึงให้ช่วงความมั่นใจในการต่อต้านอย่างอนุรักษ์นิยม?


11

ฉันมักจะจัดการกับข้อมูลที่แต่ละคนวัดกันหลายครั้งในแต่ละเงื่อนไขตั้งแต่ 2 ข้อขึ้นไป เมื่อไม่นานมานี้ฉันได้เล่นกับการสร้างแบบผสมเอฟเฟกต์เพื่อประเมินหลักฐานความแตกต่างระหว่างเงื่อนไขการสร้างแบบจำลองindividualเป็นเอฟเฟกต์แบบสุ่ม เพื่อให้เห็นภาพความไม่แน่นอนเกี่ยวกับการคาดการณ์จากแบบจำลองดังกล่าวฉันได้ใช้ bootstrapping ซึ่งในแต่ละการวนซ้ำของ bootstrap ทั้งบุคคลและการสังเกต - ภายใน - เงื่อนไข - ภายใน - บุคคล - ตัวอย่างจะถูกแทนที่ด้วยและแบบจำลองเอฟเฟกต์ใหม่ ได้รับ วิธีนี้ใช้งานได้ดีสำหรับข้อมูลที่ถือว่าข้อผิดพลาด gaussian แต่เมื่อข้อมูลเป็นแบบทวินามการบูตสแตรปอาจใช้เวลานานมากเนื่องจากการวนซ้ำแต่ละครั้งจะต้องคำนวณรูปแบบเอฟเฟกต์ผสมแบบทวินามที่คำนวณได้ค่อนข้างเข้มข้น

ความคิดที่ฉันมีคือฉันอาจใช้ส่วนที่เหลือจากแบบจำลองเดิมแล้วใช้ส่วนที่เหลือเหล่านี้แทนข้อมูลดิบใน bootstrapping ซึ่งจะอนุญาตให้ฉันคำนวณรูปแบบเอฟเฟกต์แบบ gaussian ในการวนซ้ำของ bootstrap แต่ละครั้ง การเพิ่มการทำนายดั้งเดิมจากแบบจำลองทวินามของข้อมูลดิบไปยังการคาดการณ์ bootstrapped จากส่วนที่เหลือให้ผลตอบแทน 95% CI สำหรับการคาดการณ์ดั้งเดิม

อย่างไรก็ตามฉันเพิ่งเขียนโค้ดการประเมินอย่างง่ายของวิธีการนี้การสร้างแบบจำลองไม่แตกต่างกันระหว่างสองเงื่อนไขและการคำนวณสัดส่วนของช่วงเวลาที่ความมั่นใจ 95% ล้มเหลวในการรวมศูนย์และฉันพบว่าขั้นตอนการบูตสต็อก (ไม่รวมศูนย์มากกว่า 5% ของเวลา) ยิ่งไปกว่านั้นฉันเขียนโค้ด (ลิงค์เดียวกันก่อนหน้านี้) การประเมินที่คล้ายกันของวิธีการนี้ที่นำไปใช้กับข้อมูลที่เป็นเกาส์เดิมและได้รับ CIs ต่อต้านอนุรักษ์นิยมในทำนองเดียวกัน ความคิดใด ๆ ว่าทำไมถึงเป็นเช่นนั้น?


อืมฉันเพิ่งสังเกตเห็นว่าในรหัสการสร้างข้อมูลสำหรับทั้งสองกรณีฉันไม่ได้เพิ่มความแปรปรวนระหว่างบุคคลที่จริง ๆ แล้วมีความสนใจในการกำจัดโดยการสร้างแบบจำลองบุคคลเป็นลักษณะพิเศษแบบสุ่ม ฉันจะดูว่าการเพิ่มความแปรปรวนนี้เปลี่ยนแปลงผล; ย้อนกลับไปในอีกไม่กี่ชั่วโมง ...
Mike Lawrence

ถ้าฉันจำได้อย่างถูกต้อง bootstrap ทำให้การประมาณการใกล้เคียงกับการประมาณการประชากรจริง ไม่ได้พูดอะไรเกี่ยวกับช่วงความมั่นใจ (เทียบกับ Kesar Singh เกี่ยวกับความแม่นยำเชิงซีนิสต์ของ bootstrap ของ Efron Ann. Statist., 1981, 9, 1187-1195)
suncoolsu

@ ฉัน: ฉันสามารถยืนยันได้ว่าการเพิ่มความแปรปรวนระหว่างบุคคลในฟังก์ชั่นการสร้างข้อมูลไม่ได้ช่วยปรับปรุงประสิทธิภาพของ bootstrap ฉันได้อัปโหลดรหัสที่ฉันใช้เพื่อยืนยันสิ่งนี้กับส่วนสำคัญที่เชื่อมโยงในโพสต์ต้นฉบับ
Mike Lawrence

@suncoolsu: ฉันค่อนข้างมั่นใจว่าช่วงความเชื่อมั่นที่บูตแล้วได้รับมาตรฐานมาระยะหนึ่งแล้ว Efron กล่าวถึงพวกเขาในกระดาษ 1978 ของเขาที่อธิบายขั้นตอน bootstrapping โดยทั่วไปแล้วเขามีเอกสารจำนวนมากในยุค 80 และ 90s บน tweaks ของขั้นตอน bootstrap เพื่อช่วงความเชื่อมั่นที่แม่นยำมากขึ้น
Mike Lawrence

1
คุณอ่านบทความต่อไปนี้โดยมอร์ริส: "BLUPs นั้นไม่ได้ดีที่สุดเมื่อพูดถึงการบูตสแตรป" มันอาจเกี่ยวข้องกับการทำงานของคุณ ลิงก์
กรกฎาคม

คำตอบ:


7

โปรดจำไว้ว่าช่วงเวลาของความมั่นใจ bootstrap ทั้งหมดจะเป็นแบบ asymptotically ที่ระดับความเชื่อมั่นที่ระบุไว้เท่านั้น นอกจากนี้ยังมีวิธีการบางอย่างที่เป็นไปได้สำหรับการเลือกช่วงเวลาความเชื่อมั่น bootstrap วิธีการเปอร์เซ็นไทล์ของ Efron, วิธีเปอร์เซ็นไทล์ของฮอลล์, bootstrap สองครั้ง, bootstrap t, bootstrap เอียง, BC, BCa และอีกไม่กี่ คุณยังไม่ได้บอกเราว่าคุณใช้วิธีใด กระดาษของ Schenker ใน JASA 1985 แสดงให้เห็นว่าสำหรับการแจกแจงแบบไคสแควร์ช่วงความเชื่อมั่น bootstrap BC บางครั้งมีการเปิดเผยเปอร์เซ็นต์โฆษณา ในปัญหาขนาดตัวอย่างเล็กปัญหานี้อาจรุนแรง LaBudde และฉันมีเอกสารสองฉบับที่แสดงให้เห็นว่าในตัวอย่างขนาดเล็กแม้กระทั่ง BCa อาจมีความครอบคลุมที่ต่ำมากเมื่อประเมินความแปรปรวนจากการแจกแจงล็อกนอร์มอลและปัญหาที่คล้ายกันสำหรับการทดสอบความเท่าเทียมกันของความแปรปรวนสองแบบ นี่เป็นเพียงปัญหาง่าย ๆ ฉันคาดหวังว่าสิ่งเดียวกันนี้สามารถเกิดขึ้นได้กับส่วนที่เหลือจากโมเดลผสม ในหนังสือเล่มใหม่ของเรา "คำแนะนำเกี่ยวกับวิธีการบูตด้วยแอปพลิเคชันสู่ R" จัดพิมพ์โดย Wiley ในปี 2011 เราครอบคลุมหัวข้อนี้ในหัวข้อ 3.7 และให้การอ้างอิง สิ่งที่น่าประหลาดใจก็คือบางครั้งวิธีการเปอร์เซ็นไทล์นั้นทำได้ดีกว่าวิธี BCa ที่มีความแม่นยำสูงกว่าเมื่อขนาดตัวอย่างมีขนาดเล็ก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.