เทคนิคการบูตสแตรปที่เหมาะสมสำหรับข้อมูลคลัสเตอร์หรือไม่


16

ฉันมีคำถามเกี่ยวกับเทคนิคการบูตสแตรปที่เหมาะสมเพื่อใช้กับข้อมูลที่มีการจัดกลุ่มที่แข็งแกร่ง

ฉันได้รับมอบหมายให้ประเมินรูปแบบการทำนายผลผสมแบบหลายตัวแปรบนข้อมูลการเรียกร้องค่าสินไหมทดแทนโดยการให้คะแนนแบบจำลองพื้นฐานปัจจุบันในข้อมูลการอ้างสิทธิ์ล่าสุดเพื่อพิจารณาว่าแบบจำลองทำนายว่าตอนใดของการดูแลที่มีความถี่สูงสุดของเซสชัน เปอร์เซ็นต์ไทล์ที่ 95) ความไวความจำเพาะและค่าการทำนายเชิงบวก (PPV) จะถูกนำมาใช้เพื่อประเมินประสิทธิภาพของแบบจำลอง

Bootstrapping ดูเหมือนจะเป็นวิธีที่ถูกต้องในการสร้างช่วงความมั่นใจสำหรับความอ่อนไหวความเฉพาะเจาะจงและเปอร์เซ็นต์ PPV โชคไม่ดีที่ bootstrap ที่ไร้เดียงสานั้นไม่เหมาะสมเนื่องจากข้อมูลการเรียกร้องคือ 1) มีความสัมพันธ์กับผู้ให้บริการดูแล 2) จัดแบ่งเป็นตอนของการดูแลด้วยการเข้าชมบ่อยครั้งมากขึ้นในช่วงหลายเดือนก่อนหน้านี้ในตอนของการดูแล ความแตกต่างของเทคนิค bootstrap แบบเคลื่อนย้ายบล็อกจะเหมาะสมหรือไม่

หรืออาจเป็นขั้นตอน bootstrap สามขั้นตอนจะทำงาน: 1) ตัวอย่างที่มีการเปลี่ยนจากผู้ให้บริการที่แตกต่างในข้อมูลแล้ว 2) ตัวอย่างที่มีการเปลี่ยนจากตอนที่แตกต่างกันของการดูแลโดยผู้ให้บริการที่เลือกแล้ว 3) ตัวอย่างที่มีการทดแทน ตอนที่เลือก

ขอบคุณมากสำหรับคำแนะนำใด ๆ !

คำตอบ:


14

วิธีที่สองที่คุณแนะนำนั้นสมเหตุสมผล แต่ปรากฎว่าเป็นการดีกว่าที่จะสุ่มตัวอย่างด้วยการแทนที่ในระดับสูงสุดเท่านั้น สิ่งนี้แสดงจากการจำลองโดย Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) ได้ทำการตรวจสอบทฤษฎีในแนวทางที่แตกต่างกันสำหรับชุดข้อมูล 2 ระดับและพบว่าการสุ่มตัวอย่างด้วยการแทนที่ทั้งสองระดับนั้นไม่ใช่แนวคิดที่ยอดเยี่ยม
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

ความสัมพันธ์อัตโนมัติที่คุณพูดถึงเป็นปัญหาร้ายแรง ในทางกลับกันการเลือกโดยไม่ต้องเปลี่ยนจากตอนของการดูแลจะรักษาโครงสร้างความสัมพันธ์อัตโนมัติดังนั้นมันอาจจะไม่ใช่ปัญหาใหญ่


ฉันสงสัยว่าคำตอบต่อไปนี้เหมาะสมหรือไม่:
Rafael

... ขอโทษที่ฉันไม่สามารถแสดงความคิดเห็นก่อนหน้านี้ได้ นี่คือ: ... สร้างรหัส (id) ที่คำนึงถึงแต่ละระดับการจัดกลุ่ม (เช่น episoid1.claim1, episoid1.claim1, ... , episoid2.claim1, episoid2.claimp, ... , episoidn.claimp) จากนั้นใช้ GEE ที่ช่วยให้คุณจัดการกับความสัมพันธ์อัตโนมัติ ฉันอ่านในที่ ๆ ว่าแบบจำลอง GEE ให้การประเมินที่มีประสิทธิภาพแม้ในที่ที่มีโครงสร้าง clustyer โซลูชันนี้ฟังดูสมเหตุสมผลหรือไม่
Rafael
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.